Análisis semántico latente para la detección de noticias falsas sobre COVID-19 utilizando computación heterogénea
Abstract:
La detección de noticias falsas hoy en día es un gran reto para los sistemas de predicción debido a la gran cantidad de información que se tiene actualmente, en especial, en fuentes de información como las redes sociales, blogs o sitios de web. En adición, la capacidad de procesamiento que se requiere para analizar grandes cantidades de datos es muy grande por lo que el tiempo de ejecución tiende a ser alto. En este artículo se propone un sistema de aprendizaje utilizando paradigmas de procesamiento en paralelo a nivel de CPU y GPU usando el dataset COVID-19 Open Research Dataset Challenge (CORD-19) para un primer enfoque a la detección de noticias falsas sobre COVID-19. El sistema de predicción está basado en técnicas de procesamiento de lenguaje natural utilizando como modelo de entrenamiento el análisis semántico latente o LSA, por sus siglas en ingles. También, se utilizan técnicas de multiprocesamiento a nivel de CPU para el preprocesamiento de texto, obtención de términos o palabras claves, obtención de matriz termino por documento, normalización de valores utilizando TF-IDF y obtención de la similitud de coseno, mientras que para la parte de reducción de la dimensionalidad utilizando la descomposición de valores singulares o SVD, por sus siglas en ingles se ha utilizado la arquitectura de CUDA para el procesamiento a nivel de la GPU.
Año de publicación:
2021
Keywords:
Fuente:
googleTipo de documento:
Other
Estado:
Acceso abierto
Áreas de conocimiento:
- Análisis de datos
- Ciencias de la computación
Áreas temáticas de Dewey:
- Ciencias de la computación
Objetivos de Desarrollo Sostenible:
- ODS 3: Salud y bienestar
- ODS 17: Alianzas para lograr los objetivos
- ODS 9: Industria, innovación e infraestructura