Académique Documents
Professionnel Documents
Culture Documents
&
Marketing online
El web scraping est muy relacionado con la indexacin de la web, la cual indexa la informacin de
la web utilizando un robot y es una tcnica universal adoptada por la mayora de los motores de
bsqueda.
El trmino web scraping tambin est relacionado con la automatizacin de tareas en la Web, la
cual simula la navegacin de un humano utilizando un software de computadora.
Alguno de los usos del web scraping son la comparacin de precios en tiendas, la monitorizacin
de datos relacionados con el clima de cierta regin, la deteccin de cambios en sitios webs y la
integracin de datos en sitios webs. Tambin es utilizado para obtener informacin relevante de un
sitio a travs de los rich snippets.
Reconocimiento de informacin semntica: las pginas que son analizadas podran incluir
metadatos o cierta informacin semntica como anotaciones o comentarios, los cuales pueden ser
usados comnmente. Si estas anotaciones estn en las mismas pginas, como sucede con los
microformatos, estas podran ser de utilidad cuando parseamos el DOM del documento.
Mientras que la duplicacin de expresiones originales puede ser en muchos casos ilegal, en
Estados Unidos la corte dict en el caso Feist Publications v. Rural Telephone Service que la
duplicacin de hechos es permitida. Las cortes de Estados Unidos en ciertas ocasiones han
reconocido que ciertos usos de los scrapers no deberan estar permitidos. Podra considerarse una
computadora como una propiedad personal, y de esta forma el scraper estara entrando sin
autorizacin en esta propiedad.
En el caso ms conocido, eBay vs Bidder's Edge, la segunda empresa tuvo que parar de realizar
peticiones automticas al sitio de eBay. En este caso, Bidder's Edge pujaba automticamente por
ciertos productos en este sitio.
Uno de las principales pruebas de scraping involucr a American Airlines y a una empresa llamada
FareChase. American Airlines gan esta batalla, haciendo que FareChase parara de vender un
software que le permita a los usuarios comparar tarifas en linea si el sitio de American Airlines era
incluido. La aerolnea dijo que las bsquedas de FareChase entraban sin autorizacin en los
servidores cuando recopilaban la informacin pblicamente disponible.
AntiScraping.
En algunos casos administrador de un sitio web puede utilizar varias tcnicas para detener o
disminuir los pedidos de los scrapers. Algunas tcnicas incluyen:
Aadir entradas al fichero robots.txt. Google y otros bots pueden ser detenidos de esta forma.
Bloquear la direccin IP. Esto tambin bloquear todos los accesos desde esa misma IP, por lo que
los usuarios no podrn navegar por el sitio web si acceden desde sta.
Deshabilitar cualquier interfaz de programacin de aplicaciones que el sitio web pudiera estar
brindando.
bloquear Los bots o scrapers algunas veces declaran quienes son, y gracias a esto pueden ser.
googlebot es un ejemplo. Algunos scrapers no hacen distincin entre ellos y un navegador
comn.
Monitorear el exceso de trfico proveniente de cierta IP.
Aadir un captcha u otro sistema de verificacin manual al sitio web. No se garantiza el completo
bloqueo de los scrapers, pero mediante esta tcnica se dificulta el acceso de los mismos a los sitios
webs.
Servicios comerciales antibots: algunas empresas ofrecen servicios antibots y antiscraping.
Incrementar el uso de JavaScript y AJAX. De esta forma es ms difcil para los scrapers simular las
peticiones como si fueran un navegador comn.
Consultoria Antiscraping Data seekers
Web interesantes
Webs en relacion con el web scraping.
Tutoriales
http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/
https://es.wikipedia.org/wiki/Web_scraping
Herramientas
http://webscraper.io/
http://import.io/
http://scrapy.org/
Consultoras marketing online
http://www.paraty.es/
http://www.dataseekers.es/