Servicios web para extracción de entidades desde contenido html. Piloto en sitios con recursos abiertos OCW


Abstract:

Diseño e implementación de una aplicación y tres servicios web para la extracción de entidades a partir de contenido HTML, alojados en un del Laboratorio De Tecnologías Avanzadas en la Web y SBC de la UTPL e implementados mediante Python. Con este trabajo se busca facilitar la extracción de información clave dentro del contenido HTML y el enriquecimiento del mismo. Se desarrollaron tres servicios web para este fin: uno para descomponer el texto con la finalidad de etiquetar las palabras, un segundo para procesar las palabras etiquetadas y posteriormente extraer entidades y el contexto del que fueron tomadas, y un tercero para desambiguar y enlazar con la Dbpedia para enriquecer el contenido; los tres servicios han sido descritos con anotaciones semánticas, para que puedan permitir la interoperabilidad entre los servicios existentes. Al implementarse el piloto de este proyecto en sitios con recursos abiertos OCW, esta investigación constituye un referente para futuros proyectos que se desarrollen a partir de la extracción de entidades y el enriquecimiento de contenido.

Año de publicación:

2014

Keywords:

  • Ingeniero en Sistemas Informáticos y Computación- Tesis – Disertaciones académicas
  • web
  • Recursos educativos abiertos
  • Web Semantica
  • Servicios Web

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Minería de datos
  • Ciencias de la computación

Áreas temáticas:

  • Programación informática, programas, datos, seguridad