“utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las táreas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)”


Abstract:

En el presente trabajo se expone un informe del análisis, diseño, implementación y pruebas del módulo para la detección de potencial plagio de las tareas enviadas a un Sistema de Administración de Cursos, utilizando como base tecnológica la programación en paralelo sobre la plataforma de Hadoop, que podría ser adaptado al SIDWeb o Metis. El documento se encuentra dividido principalmente en cinco capítulos que, en su totalidad, exponen los aspectos teóricos y técnicos utilizados para comprender el porqué y el cómo se desarrolló este tema. En el primer capítulo, se define la problemática que se desea resolver indicando el objetivo general y sus respectivos objetivos específicos que planteamos al inicio de esta propuesta. Este capítulo determina una meta concreta y esboza las directrices procedimentales que guiarán el proyecto, acotadas por las limitantes intrínsecas y extrínsecas del desarrollo del mismo. En el segundo capítulo, se presenta un análisis de la base conceptual que utilizamos para comprender cómo la necesidad de comparar dos cadenas está presente en otras ramas de la ciencia, como en la biología, y cómo la solución ha sido propuesta con el uso de herramientas informáticas; así mismo, se expone la estrategia para realizar alineamientos locales de secuencias biológicas con el uso del algoritmo de Smith-Waterman[1] y cómo éste resulta de interés en nuestro trabajo como base de la propuesta del PhD. Robert W. Irving[2] en el que se realiza una mejora para maximizar la cantidad de alineamientos resultantes a partir de dos cadenas sujetas a comparación. En el tercer capítulo, se expone conceptualmente las tecnologías utilizadas para llevar a cabo el proyecto, tanto como el servicio de almacenamiento escalable de datos ofrecido por Amazon (S3), la infraestructura con capacidad de cómputo variable (también de Amazon) para el procesamiento de aplicaciones flexibles tolerante a fallos (EC2), la plataforma utilizada para el procesamiento masivo de datos (Hadoop) y el modelo de programación Map/Reduce, que proponemos para el desarrollo de este proyecto. El cuarto capítulo detalla específicamente como se hizo frente a la problemática expuesta en la implementación del módulo, resultado de la unión conceptual de los puntos citados en los capítulos dos y tres, dividiendo el proceso en dos partes básicamente: • Primero: el pre-procesamiento de los archivos del Sistema de Administración de Cursos para generar archivos en texto plano similares a sus fuentes en los que se conservaron sólo las palabras no consideradas como vacías o carentes de significado semántico y con sólo caracteres trascendentes (caracteres en el rango de la ‘a’ a la ‘z’, de la ‘A’ a la ‘Z’, del ‘0’ al ‘9’). • Segundo: la implementación del algoritmo de Smith-Waterman con las mejoras planteadas por PhD. Robert W. Irving para determinar el plagio haciendo uso de la plataforma de Hadoop con su modelo de programación Map/Reduce. En el quinto capítulo se expone un resumen de las pruebas realizadas y el análisis comparativo obtenido a partir de éstas, permitiendo establecer empíricamente cómo, con el uso de más nodos y una cantidad constante de datos, es posible reducir el tiempo promedio de cómputo total. Al finalizar el presente trabajo proponemos nuestras conclusiones y las recomendaciones para futuras implementaciones, a partir de los problemas presentes y los resultados obtenidos en la elaboración del mismo.  

Año de publicación:

2010

Keywords:

  • UTILIZACIÓN DE LA PLATAFORMA HADOOP
  • SISTEMA DE ADMINISTRACIÓN DE CURSOS (APLICABLE PARA SIDWEB O METIS

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Minería de datos
  • Ciencias de la computación

Áreas temáticas:

  • Programación informática, programas, datos, seguridad
  • Métodos informáticos especiales
  • Ciencias de la computación