Análisis semántico latente para la detección de noticias falsas sobre COVID-19 utilizando computación heterogénea
Abstract:
La detección de noticias falsas hoy en día es un gran reto para los sistemas de pbkp_redicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de pbkp_redicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.
Año de publicación:
2021
Keywords:
Fuente:

Tipo de documento:
Other
Estado:
Acceso abierto
Áreas de conocimiento:
- Análisis de datos
- Ciencias de la computación
Áreas temáticas:
- Ciencias de la computación