MarIA: Modelo robusto en la investigación de la detección de las palabras complejas en el idioma español”.
Abstract:
El propósito del presente trabajo de investigación es evaluar el modelo de lenguaje enmascarado basado en Transformers dirigido al idioma español MarIA con el objetivo de medir la precisión en la pbkp_redicción de las palabras complejas del idioma español. El modelo se ajustó con la técnica de Masked Language Modeling usando como dataset el corpus en español ClexIS fue posteriormente afinado con la técnica de Fine-Tuning lo cual generó las incrustaciones-encodings (embedding) permitiendo el desarrollo de los distintos datasets para la respectiva ejecución por los diversos algoritmos de Machine Learning como los aplicado en el trabajo de ( Ortiz Zambrano & Montejo Ráez, 2021), obteniendo así la pbkp_redicción de la complejidad Léxica - LCP. Los resultados de la ejecución del modelo ajustado y afinado dieron lugar a la evaluación del desempeño determinando un MAE de 0.1614377, MSE de 0.0548016 y un RMSE de 0.2328104 en el modelo afinado y ejecutado sobre el algoritmo Support Vector Regressor.
Año de publicación:
2022
Keywords:
- Language model
- Enmascaramiento
- TRANSFORMERS
- TRANSFORMERS
- pbkp_rediction
- Lexical Complexity
- Machine learning
- Machine learning
- COMPLEJIDAD LÉXICA
- Pbkp_redicción
- Masking
- MODELO DE LENGUAJE
Fuente:
Tipo de documento:
Bachelor Thesis
Estado:
Acceso abierto
Áreas de conocimiento:
- Aprendizaje automático
- Ciencias de la computación
Áreas temáticas:
- Etimología
- Lengua
- Lenguas de Asia oriental y sudoriental