Creación de un corpus de textos universitarios en español para la identificación de palabras complejas en el área de la simplificación léxica.
Abstract:
El desarrollo de la lectura y su comprensión se vuelve compleja en ocasiones cuando se encuentra redactada de forma sofisticada o en un lenguaje técnico, causando al lector dificultad de comprensión del contenido. El objetivo de esta investigación es crear un corpus de textos universitarios en español que sirva como recurso en el área de la Simplificación Léxica para el estudio de la Identificación de Palabras Complejas. Entre los principales objetivos específicos se encuentra la creación de un prototipo de sistema de anotación de palabras complejas donde los estudiantes de la Carrera de Ingeniería en Sistemas Computacionales y Software podrán identificar y anotar las palabras que consideren complejas para su comprensión. Se aplicó la metodología de investigación del Estudio de Casos utilizando dos técnicas: el Análisis Documental que permitió la exploración de fuentes bibliográficas para la investigación y el Análisis del Discurso aplicado a las grabaciones de las clases impartidas por los docentes de las Carreras mencionadas anteriormente generando un DataSet que contiene las unidades de análisis para el cálculo de la complejidad léxica de los textos del corpus obtenidos mediante la aplicación de las métricas de complejidad léxica para el idioma español. También se aplicaron medidas de rendimiento para evaluar la eficacia del proceso de etiquetado de las palabras complejas anotadas en el corpus, proceso que fue realizado mediante la creación y ejecución de scripts de programación aplicando técnicas del Procesamiento de Lenguaje Natural, obteniendo como resultado una alta complejidad en los 3887 textos que conforman el corpus y un margen de eficacia de identificación del 49% de acuerdo a los resultados de la matriz de confusión, evidenciando la problemática planteada en la investigación y concluyendo que el corpus contribuirá a la identificación de las palabras complejas que causan las barreras en la compresión lectora en los estudiantes universitarios.
Año de publicación:
2021
Keywords:
- Lexical Complexity
- PALABRAS COMPLEJAS
- Case study
- Complex word
- ETIQUETADO
- ESPAÑOL
- Corpus
- Corpus
- Performance Measures
- COMPLEJIDAD LÉXICA
Fuente:
Tipo de documento:
Bachelor Thesis
Estado:
Acceso abierto
Áreas de conocimiento:
Áreas temáticas:
- Filosofía y teoría
- Lingüística
- Literatura y retórica