Automatic RDF-ization of big data semi-structured datasets
Abstract:
La adopción de Linked Data sigue creciendo en muchos campos a un ritmo considerable. Sin embargo, algunos de los conjuntos de datos más importantes por lo general permanecen des-semantificados debido a dos razones principales: el enorme volumen de los conjuntos de datos y la falta de métodos para la conversión automática a RDF. Este artículo presenta un enfoque automático para hacer frente a estos problemas mediante el aprovechamiento de nuevas herramientas de Big Data y un programa para la conversión automática de un modelo relacional a RDF. En general, el proceso implementado se puede resumir en tres pasos: 1) transferencia masiva de datos desde las diferentes fuentes hacia Hive/HDFS, 2) transformación de los datos en Hive a RDF utilizando D2RQ, y 3) almacenamiento del RDF resultante en CumulusRDF. De este modo, mediante el uso de estas herramientas de Big Data garantizamos que la plataforma sea capaz de hacer frente a las grandes cantidades de datos disponibles en diferentes fuentes, ya sea que contengan datos estructuradas o semi-estructurados. Además, puesto que los datos RDF se almacenan en CumulusRDF en la etapa final, los usuarios o aplicaciones pueden consumir los datos resultantes a través de servicios web o consultas SPARQL. Finalmente, una evaluación demuestra la solidez de nuestro enfoque.
Año de publicación:
2016
Keywords:
- BIG DATA
- Web Semantica
- D2rq
- Apache Servicemix
- Transformacion Automatica A Rdf
- Fuentes Semi-Estructuradas
- Integracion De Datos
- Apache Hive
- Rdf
- Cumulosrdf
- NOSQL
Fuente:
Tipo de documento:
Article
Estado:
Acceso abierto
Áreas de conocimiento:
- Web Semántica
- Ciencias de la computación
Áreas temáticas:
- Funcionamiento de bibliotecas y archivos
- Psicología comparada
- Métodos informáticos especiales