Determinación de género y profesión de usuarios de Twitter utilizando estilometría con palabras de uso frecuente del español y métodos de clasificación de Machine Learning.
Abstract:
El objetivo de este artículo es determinar el género y la profesión de los usuarios de Twitter en Ecuador, mediante el análisis de características estilométricas y técnicas de Machine Learning (ML) para la Atribución de Autoría. El proyecto corresponde a un tipo de investigación cuantitativa-bibliográfica, con diseño experimental realizada en lenguaje de programación Python, en el ambiente de prueba Google Colab. Su desarrollo consiste inicialmente en extraer 6000 tweets de 120 usuarios, que serán divididos 5000 para entrenamiento y 1000 para pruebas. Luego, para el pre-procesamiento de la información se implementa características de tipo fraseológicas y de frecuencia de palabras utilizando el listado CREA proporcionado por la Real Academia Española. Posteriormente se entrena los cinco métodos clasificadores escogidos: Ramdom Forest (RF), Decision Tree (DT), Logistic Regression (LR), MultiLayer Perceptron (MLP) y Gradient Boosting (GB), y se evalúa su comportamiento a través de la técnica de Validación Cruzada y métricas de precisión para escoger el clasificador ideal para la pbkp_redicción del género y profesión. Por último, se presentan los resultados en conductas observables y medibles. En este caso, se determinó que Random Forest obtuvo 0.63 de precisión al predecir el género y, el método MLP Classifier un 0.84 de precisión para la profesión, superando al resto de clasificadores. En conclusión, el estudio de esta investigación es de gran interés, debido a que aplica métodos tecnológicos actuales y brinda soluciones óptimas en atribución de autoría para textos cortos.
Año de publicación:
2022
Keywords:
- validación cruzada
- Cross-Validation
- Estilometría
- Stylometry
- Métodos de Clasificación
- Authorship Attribution
- Atribución de Autoría
- Machine learning
- Classification Methods
Fuente:

Tipo de documento:
Bachelor Thesis
Estado:
Acceso abierto
Áreas de conocimiento:
- Estudios de género
- Aprendizaje automático
- Ciencias de la computación
Áreas temáticas:
- Programación informática, programas, datos, seguridad
- Lengua
- Métodos informáticos especiales