Clasificación y etiquetado de mensajes de Twitter de Ecuador para determinar qué tema tratan utilizando un modelo Transformer de Procesamiento De Lenguaje Natural.


Abstract:

Actualmente las redes sociales generan grandes cantidades de datos diariamente, pero muchos de estos datos no son analizados ni procesados, resultando una tarea complicada a la hora de manipularla de forma manual, sin embargo, gracias a las técnicas y métodos del Procesamiento de lenguaje Natural (PLN) es posible poder automatizar estos procesos, debido a que se encarga de comprender la comunicación que existe entre un ser humano y un ordenador. El presente trabajo tiene como objetivo clasificar y etiquetar textos cortos en español utilizando mensajes de Twitter en Ecuador mediante un modelo Transformer pre-entrenado para el procesamiento de lenguaje natural. Se procederá a experimentar y utilizar el modelo Selectra-Medium un modelo ya entrenado para la clasificación y etiquetado de textos, el cual recibe como fuente de datos un conjunto de tweets extraídos y almacenados en un archivo para su posterior análisis, preprocesamiento, clasificación y etiquetados de categorías de manera automática, se establecieron categorías como sociedad, economía, entretenimiento, salud, deportes y delincuencia pudiendo identificar de qué temas tratan o se relacionan dichos textos. Los resultados obtenidos muestran el correcto funcionamiento del modelo, así mismo a través de la comparación y estudio con otros modelos Transformers se identifica que el modelo Selectra-Medium arroja resultados más precisos con un mejor comportamiento y rendimiento. El uso de los modelos Transformers es una herramienta importante para la clasificación y etiquetado de textos en español, obteniendo grandes avances y aportes a investigaciones relacionadas, incluso para mejorar el proceso de toma de decisiones en diferentes entidades.

Año de publicación:

2022

Keywords:

  • Selectra
  • Natural Language
  • Clasificación y etiquetado de textos
  • Procesamiento de lenguaje natural
  • TRANSFORMERS
  • Text classification and labeling

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Aprendizaje automático

Áreas temáticas:

  • Programación informática, programas, datos, seguridad
  • Lingüística
  • Lengua