Clasificación y etiquetado de mensajes de Twitter de Ecuador para determinar qué tema tratan utilizando un modelo Transformer de Procesamiento De Lenguaje Natural.
Abstract:
Actualmente las redes sociales generan grandes cantidades de datos diariamente, pero muchos de estos datos no son analizados ni procesados, resultando una tarea complicada a la hora de manipularla de forma manual, sin embargo, gracias a las técnicas y métodos del Procesamiento de lenguaje Natural (PLN) es posible poder automatizar estos procesos, debido a que se encarga de comprender la comunicación que existe entre un ser humano y un ordenador. El presente trabajo tiene como objetivo clasificar y etiquetar textos cortos en español utilizando mensajes de Twitter en Ecuador mediante un modelo Transformer pre-entrenado para el procesamiento de lenguaje natural. Se procederá a experimentar y utilizar el modelo Selectra-Medium un modelo ya entrenado para la clasificación y etiquetado de textos, el cual recibe como fuente de datos un conjunto de tweets extraídos y almacenados en un archivo para su posterior análisis, preprocesamiento, clasificación y etiquetados de categorías de manera automática, se establecieron categorías como sociedad, economía, entretenimiento, salud, deportes y delincuencia pudiendo identificar de qué temas tratan o se relacionan dichos textos. Los resultados obtenidos muestran el correcto funcionamiento del modelo, así mismo a través de la comparación y estudio con otros modelos Transformers se identifica que el modelo Selectra-Medium arroja resultados más precisos con un mejor comportamiento y rendimiento. El uso de los modelos Transformers es una herramienta importante para la clasificación y etiquetado de textos en español, obteniendo grandes avances y aportes a investigaciones relacionadas, incluso para mejorar el proceso de toma de decisiones en diferentes entidades.
Año de publicación:
2022
Keywords:
- Selectra
- Natural Language
- Clasificación y etiquetado de textos
- Procesamiento de lenguaje natural
- TRANSFORMERS
- Text classification and labeling
Fuente:
Tipo de documento:
Bachelor Thesis
Estado:
Acceso abierto
Áreas de conocimiento:
- Aprendizaje automático
Áreas temáticas:
- Programación informática, programas, datos, seguridad
- Lingüística
- Lengua