“Duplicidad de código en Stack Overflow en español e inglés”.


Abstract:

Los sitios de Stack Overflow y Stack Overflow en español proporcionan una plataforma web para que los programadores profesionales, estudiantes o aficionados discutan problemas técnicos en forma de (Q&A). El servicio de preguntas y respuestas se da a través de debates, lo que brinda a una gran audiencia y uso de conocimientos, este servicio de preguntas y respuestas está separado del entorno de desarrollo utilizado por los programadores. Sin embargo, el problema más común que se ha dado en esta comunidad es la duplicidad de fragmentos de códigos en cada publicación en SO en inglés y español, el propósito de este estudio es implementar modelos con técnicas de aprendizaje automático que permita detectar duplicidad código, mediante una revisión de literatura o un mapeo sistemático en donde se determinó las técnicas y algoritmos más utilizadas por otros autores como son Redes Neuronales, Random Forest y Support Vector Machine, se construyó un dataset para almacenar los datos de etiquetado manual, con los resultados obtenidos se evaluaron la precisión de cada una de las técnicas, dando como una precisión favorable al momento de detectar fragmentos de códigos. Finalmente, se da a conocer que el algoritmo de Random Forest fue la más precisa para identificar duplicidad en los fragmentos de códigos en las publicaciones de Stack Overflow y Stack Overflow en español.

Año de publicación:

2021

Keywords:

  • Duplicidad
  • Preguntas y respuestas
  • Algoritmos
  • APRENDIZAJE AUTOMÁTICO
  • Code
  • Machine learning
  • Código
  • Questions and answers
  • Duplication
  • ALGORITHMS
  • STACK OVERFLOW

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Ingeniería de software

Áreas temáticas:

  • Programación informática, programas, datos, seguridad