Automatic RDF-ization of big data semi-structured datasets


Abstract:

La adopción de Linked Data sigue creciendo en muchos campos a un ritmo considerable. Sin embargo, algunos de los conjuntos de datos más importantes por lo general permanecen des-semantificados debido a dos razones principales: el enorme volumen de los conjuntos de datos y la falta de métodos para la conversión automática a RDF. Este artículo presenta un enfoque automático para hacer frente a estos problemas mediante el aprovechamiento de nuevas herramientas de Big Data y un programa para la conversión automática de un modelo relacional a RDF. En general, el proceso implementado se puede resumir en tres pasos: 1) transferencia masiva de datos desde las diferentes fuentes hacia Hive/HDFS, 2) transformación de los datos en Hive a RDF utilizando D2RQ, y 3) almacenamiento del RDF resultante en CumulusRDF. De este modo, mediante el uso de estas herramientas de Big Data garantizamos que la plataforma sea capaz de hacer frente a las grandes cantidades de datos disponibles en diferentes fuentes, ya sea que contengan datos estructuradas o semi-estructurados. Además, puesto que los datos RDF se almacenan en CumulusRDF en la etapa final, los usuarios o aplicaciones pueden consumir los datos resultantes a través de servicios web o consultas SPARQL. Finalmente, una evaluación demuestra la solidez de nuestro enfoque.

Año de publicación:

2016

Keywords:

  • BIG DATA
  • Web Semantica
  • D2rq
  • Apache Servicemix
  • Transformacion Automatica A Rdf
  • Fuentes Semi-Estructuradas
  • Integracion De Datos
  • Apache Hive
  • Rdf
  • Cumulosrdf
  • NOSQL

Fuente:

rraaerraae

Tipo de documento:

Article

Estado:

Acceso abierto

Áreas de conocimiento:

  • Web Semántica
  • Ciencias de la computación

Áreas temáticas:

  • Funcionamiento de bibliotecas y archivos
  • Psicología comparada
  • Métodos informáticos especiales