Esquema de clasificación de información universitaria basado en NERC: caso noticias UTPL
Abstract:
La presente investigación propone el desarrollo de un esquema de clasificación de información universitaria. Para su desarrollo se aplican dos metodologías basadas en las técnicas de Reconocimiento y Clasificación de Entidades Nombradas (NERC), denominadas: Procesamiento de Lenguaje Natural (PLN) y Aprendizaje Automático (AA). NERC permiten aprovechar la riqueza del contexto en el cual se presentan las entidades nombradas, tales como: personas, organizaciones, locaciones, fechas, y títulos de persona. Como primera fase se tiene la creación de un corpus de doscientas noticias, etiquetado manualmente, el mismo que sirve para el análisis y creación de patrones. En segunda fase está la metodología de PLN, en donde se utiliza la herramienta GATE (General Architecture for Text Engineering), es una infraestructura open-source basada en Java, sirve para desarrollar y reutilizar componentes de software para resolver el problema de clasificación, y la última fase es la metodología de Aprendizaje Automático, en donde se aplica el algoritmo de clasificación SVM o Maquinas de Vectores de Soporte, para lo cual se presentan los resultados mediante un demo.
Año de publicación:
2015
Keywords:
- NERC
- PLM – Metodología
- Ingeniero en sistemas informáticos y computación – Tesis y disertaciones académicas
- APRENDIZAJE AUTOMÁTICO
- Procesamiento de lenguaje natural
Fuente:

Tipo de documento:
Bachelor Thesis
Estado:
Acceso abierto
Áreas de conocimiento:
Áreas temáticas:
- Funcionamiento de bibliotecas y archivos
- Medios documentales, educativos, informativos; periodismo
- Interacción social