Análisis de las técnicas de Web Scraping en la recolección de datos de sitios Web para determinar su efectividad y nivel de seguridad.


Abstract:

El presente trabajo de investigación fue realizado con el objetivo de evaluar las técnicas que se utilizan en la extracción de datos de sitios web para evaluar su efectividad y nivel de seguridad. El proceso de extraer datos en línea de un sitio web de forma automática es conocido como Web Scraping o raspado Web, el cual puede ser realizado de forma independiente mediante herramientas de pago, a través de un programa particular o mediante una API. Por lo general, los sitios que tienen controles de seguridad ponen a disposición interfaces de programación de aplicaciones o APIs para que los visitantes o internautas puedan extraer cierta información de forma legal y bajo ciertas restricciones. Como parte del proceso de evaluación de las técnicas, se desarrollaron tres programas de web scraping. Dos de los tres programas se crearon sin el uso de APIs y se utilizaron para para captar las noticias de un diario en determinadas fechas y para extraer datos de un sitio web que muestra datos de diversas casas de mercado de valores de España. El tercer programa fue desarrollado incorporando el uso de una API de un sitio web de música con el cual se pudo obtener una lista de reproducción. La metodología de investigación utilizada para la elaboración de este proyecto fue de tipo descriptiva explicativa debido a que se realiza el estudio de un tema en particular con el fin de conocer sus características y forma de funcionamiento. Las herramientas de softwares utilizadas fueron Python y Javascript debido a su flexibilidad, facilidad de comprensión y codificación. Como resultado de la investigación, se pudo extraer datos y obtener una buena valoración de la aplicación de las técnicas de raspado web.

Año de publicación:

2022

Keywords:

  • Técnicas de Raspado
  • Data extraction
  • Web Scrapin
  • And use of APIs
  • WEB SCRAPING
  • Scraping techniques
  • Uso de APIs
  • extracción de datos
  • Raspado Web

Fuente:

rraaerraae

Tipo de documento:

Bachelor Thesis

Estado:

Acceso abierto

Áreas de conocimiento:

  • Minería de datos
  • Ciencias de la computación

Áreas temáticas de Dewey:

  • Funcionamiento de bibliotecas y archivos