Determinación de autoría de textos en español mediante análisis estilométrico de palabras de uso frecuente y validación cruzada para Machine Learning.


Abstract:

La investigación está enfocada en determinar la autoría de textos en el idioma español, se usará un data set de las campañas PAN 2015, en el cual, se analizará un corpus aproximado de 500 documentos de texto de 100 autores, para determinar las palabras de uso frecuente del idioma español se usó “El Corpus de Referencia del Español Actual” (CREA), el cual es validado por la Real Academia Española de la Lengua, también se utilizará una biblioteca para estilometría, que nos ayudará a extraer varias características estilométricas y calcular las distancias que existen entre las palabras, luego se procede a entrenar y evaluar varios métodos clasificadores. Para lograrlo, se establecerá el estado del arte de la estilometría y métodos clasificadores, mediante la investigación de contribuciones científicas se determinará las técnicas de machine learning y análisis estilométrico, entrenando métodos clasificadores potenciados con validación cruzada utilizando estas características, se evalúa cada clasificador utilizando métricas de evaluación. Los resultados obtenidos según la métrica F1 del Multilayer Perceptron, Gradient Boost y el Decision Tree fueron 0.8840, 0.8622 y 0.8166 de precisión respectivamente, evidenciando que el método con el mejor resultado es el Multilayer Perceptron, también se determina que al experimentar con 400 palabras se obtienen mejores resultados, superando esta cantidad de palabras los resultados empiezan a decaer. Concluyendo que es posible determinar la autoría de textos en idioma español realizando las adaptaciones necesarias usando el análisis estilométrico y el uso de validación cruzada.

Año de publicación:

2022

Keywords:

  • Authorship
  • validación cruzada
  • Cross-Validation
  • Classifier methods
  • Métodos clasificadores
  • Stylometry
  • Machine learning
  • Métricas de evaluación
  • Estilometría
  • Evaluation metrics
  • Autoría

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Aprendizaje automático
  • Ciencias de la computación

Áreas temáticas:

  • Lingüística
  • Métodos informáticos especiales
  • Programación informática, programas, datos, seguridad