Regresar

Categorización de noticias utilizando Mecanismo de Autoatención Transformers para extracción de características de estilo.

Abstract:

El auge del periodismo digital, la cantidad de noticias generadas constantemente y el continuo número de personas que acceden a estos contenidos, genera muchas veces que terceros por medio de las plataformas webs y redes sociales tengan la oportunidad de persuadir a los lectores con contenido que altere su opinión o comportamiento sobre un tema, por esto resulta necesario, mediante técnicas de procesamiento de lenguaje natural (PLN) aplicar métodos que ayuden a solventar estos problemas. En esta investigación se busca experimentar con modelos Transformers para inglés y español, haciendo uso de aprendizaje por transferencia para un ajuste fino y obtener un modelo capaz de determinar si una noticia es de tipo sátira, opinión o información. Para ello utilizamos un dataset etiquetado obtenido de SemEval 2023 que contiene noticias extraídas de fuentes como Google News y Europe Media Monitor (EMM). Utilizamos modelos Transformers preentrenados para tareas de clasificación de textos en los idiomas inglés y español para así comparar las pbkp_redicciones mediante métricas de evaluación. Los resultados obtenidos dan indicios de las bondades de los modelos considerando el tipo y cantidad de muestras del dataset utilizado, contribuyendo así a futuras investigaciones relacionadas a la clasificación de textos en específico categorización de noticias. Este estudio demuestra que es posible categorizar noticias y clasificarlas como sátira, opinión e información utilizando modelos Transformers preentrenados.