Vous êtes sur la page 1sur 6

Web Scraping

&
Marketing online

Que es el Web Scraping?


Web scraping es una tcnica utilizada mediante programas de software para extraer informacin
de sitios web. Usualmente, estos programas simulan la navegacin de un humano en la World
Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una
aplicacin.
El web scraping se enfoca en la transformacin de datos sin estructura en la web (como el formato
HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos
central, en una hoja de clculo o en alguna otra fuente de almacenamiento.

El web scraping est muy relacionado con la indexacin de la web, la cual indexa la informacin de
la web utilizando un robot y es una tcnica universal adoptada por la mayora de los motores de
bsqueda.
El trmino web scraping tambin est relacionado con la automatizacin de tareas en la Web, la
cual simula la navegacin de un humano utilizando un software de computadora.
Alguno de los usos del web scraping son la comparacin de precios en tiendas, la monitorizacin
de datos relacionados con el clima de cierta regin, la deteccin de cambios en sitios webs y la
integracin de datos en sitios webs. Tambin es utilizado para obtener informacin relevante de un
sitio a travs de los rich snippets.

Consultoria Web Scraping


Es importante que si tu empresa va a usar estas tecnicas lo realicen empresas profesionales con
experiencia en el sector de consultoria como la Consultora de web scraping Dataseekers.es

Tecnicas de Web Scraping


Protocolo HTTP: pginas webs estticas y dinmicas pueden ser obtenidas haciendo peticiones
HTTP al servidor remoto utilizando sockets, etc.
Algoritmos de minera de datos: muchos sitios webs tienen grandes colecciones de pginas
generadas dinmicamente a partir de una base de datos. Datos de la misma categora aparecen
usualmente en pginas similares mediante un script o una plantilla. En la minera de datos, un
programa detecta estas plantillas en un contexto especfico y extrae su contenido.
Aplicaciones para web scraping: existen muchas aplicaciones disponibles que pueden ser
utilizadas para personalizar soluciones de Web Scraping. Estas aplicaciones pudieran reconocer
automticamente la estructura de cierta pgina o brindar una interfaz al usuario donde este
pudiera seleccionar los campos que son de inters dentro del documento. De esta forma no es
necesario escribir manualmente cdigo para realizar estas tareas.
Copiar y pegar : algunas veces incluso las mejores tcnicas de web scraping no pueden
reemplazar la examinacin manual de un humano, y a veces esta puede ser la nica va de solucin
cuando el sitio que tenemos en mente pone ciertas barreras para prevenir que se creen softwares
para realizar tareas automticas en este.
Uso de expresiones regulares: una posible va para extraer informacin de pginas webs pueden
ser las expresiones regulares, aunque comnmente no se recomienda utilizarlas para parsear el
formato HTML.
Parsers de HTML: Algunos lenguajes, como XQuery y HTQL pueden ser utilizados para parsear
documentos, recuperar y transformar el contenido de documentos HTML.

Reconocimiento de informacin semntica: las pginas que son analizadas podran incluir
metadatos o cierta informacin semntica como anotaciones o comentarios, los cuales pueden ser
usados comnmente. Si estas anotaciones estn en las mismas pginas, como sucede con los
microformatos, estas podran ser de utilidad cuando parseamos el DOM del documento.

Es legal el web scraping?


Pues para resumir en General S peroooooo
Pero en algunos contextos podria tener dudas El web scraping pudiera ir en contra de los trminos
de uso de algunos sitios webs. El cumplimiento de estos trminos no est totalmente claro.

Mientras que la duplicacin de expresiones originales puede ser en muchos casos ilegal, en
Estados Unidos la corte dict en el caso Feist Publications v. Rural Telephone Service que la
duplicacin de hechos es permitida. Las cortes de Estados Unidos en ciertas ocasiones han
reconocido que ciertos usos de los scrapers no deberan estar permitidos. Podra considerarse una
computadora como una propiedad personal, y de esta forma el scraper estara entrando sin
autorizacin en esta propiedad.
En el caso ms conocido, eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar
peticiones automticas al sitio de eBay. En este caso, Bidder's Edge pujaba automticamente por
ciertos productos en este sitio.
Uno de las principales pruebas de scraping involucr a American Airlines y a una empresa llamada
FareChase. American Airlines gan esta batalla, haciendo que FareChase parara de vender un
software que le permita a los usuarios comparar tarifas en linea si el sitio de American Airlines era
incluido. La aerolnea dijo que las bsquedas de FareChase entraban sin autorizacin en los
servidores cuando recopilaban la informacin pblicamente disponible.

AntiScraping.
En algunos casos administrador de un sitio web puede utilizar varias tcnicas para detener o
disminuir los pedidos de los scrapers. Algunas tcnicas incluyen:

Aadir entradas al fichero robots.txt. Google y otros bots pueden ser detenidos de esta forma.
Bloquear la direccin IP. Esto tambin bloquear todos los accesos desde esa misma IP, por lo que
los usuarios no podrn navegar por el sitio web si acceden desde sta.
Deshabilitar cualquier interfaz de programacin de aplicaciones que el sitio web pudiera estar
brindando.
bloquear Los bots o scrapers algunas veces declaran quienes son, y gracias a esto pueden ser.
googlebot es un ejemplo. Algunos scrapers no hacen distincin entre ellos y un navegador
comn.
Monitorear el exceso de trfico proveniente de cierta IP.
Aadir un captcha u otro sistema de verificacin manual al sitio web. No se garantiza el completo
bloqueo de los scrapers, pero mediante esta tcnica se dificulta el acceso de los mismos a los sitios
webs.
Servicios comerciales antibots: algunas empresas ofrecen servicios antibots y antiscraping.
Incrementar el uso de JavaScript y AJAX. De esta forma es ms difcil para los scrapers simular las
peticiones como si fueran un navegador comn.
Consultoria Antiscraping Data seekers

Web interesantes
Webs en relacion con el web scraping.
Tutoriales
http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/
https://es.wikipedia.org/wiki/Web_scraping
Herramientas
http://webscraper.io/
http://import.io/
http://scrapy.org/
Consultoras marketing online
http://www.paraty.es/
http://www.dataseekers.es/

Vous aimerez peut-être aussi