Vous êtes sur la page 1sur 5

Relación sobre la minería de datos y web scraping

Steven Darío Rodríguez Sierra


dynamo2724@gmail.com
Programa Ingeniería de Sistemas - Universidad de Cundinamarca

Abstract— Now a days, data expansión de su uso en diferentes


mining (MD) is increasingly aspectos de la vida, se continúa
getting the attention of recogiendo y almacenando en bases
companies. It is still infrequent to de datos gran cantidad de
hear phrases like "we should información. Descubrir
segment our customers using MD conocimiento de este enorme
tools", "the MD will increase volumen de datos es un reto en sí
customer satisfaction", or "the mismo. La minería de datos (MD)
competition is using MD to gain es un intento de buscarle sentido a
market share". However, la explosión de información que
everything points to the fact that actualmente puede ser almacenada.
sooner or later data mining will Hoy en día, los datos no están
be used by society, at least with restringidos a tulpas representadas
the same weight that Statistics únicamente con números o
currently has. So what is data caracteres. El avance de la
mining and what are the tecnología para la gestión de bases
benefits? How can this de datos hace posible integrar
technology influence the diferentes tipos de datos, tales como
resolution of the daily problems imagen, video, texto, y otros datos
of companies and society in numéricos, en una base de datos
general? What technologies are sencilla, facilitando el
behind data mining? What is the procesamiento multimedia. Como
life cycle of a typical data mining resultado, la mezcla tradicional ad
project? hoc de técnicas estadísticas y
herramientas de gestión de datos no
I. INTRODUCCIÓN son adecuadas por más tiempo para
analizar esta vasta colección de
La revolución digital ha hecho datos desiguales.
posible que la información La tecnología de Internet actual y
digitalizada sea fácil de capturar, su creciente demanda necesita el
procesar, almacenar, distribuir, y desarrollo de tecnologías de minería
transmitir. Con el importante de datos más avanzadas para
progreso en informática y en las información y el conocimiento de
tecnologías relacionadas y la los datos distribuidos por todo el
mundo. En este siglo la demanda Su uso está muy claro: podemos
continuará creciendo, y el acceso a aprovechar el web scraping para
grandes volúmenes de datos conseguir cantidades industriales de
multimedia traerá la mayor información (Big data) sin teclear
transformación para el global de la una sola palabra. A través de los
sociedad. Por tanto, el desarrollo de algoritmos de búsqueda podemos
la tecnología de minería de datos rastrear centenares de webs para
avanzada continuará siendo una extraer sólo aquella información
importante área de estudio, y en que necesitamos.
consecuencia se espera gastar
muchos recursos en esta área de Para ello nos será muy útil
desarrollo en los próximos años. dominar regex (regular expression)
Existen diversos dominios donde se para delimitar las búsquedas o
almacenan grandes volúmenes de hacerlas más precisas y que el
información en bases de datos filtrado de la información sea
centralizadas y distribuidas, como mejor.
por ejemplo librerías digitales,
archivos de imágenes, Algunos ejemplos para los cuales
bioinformática, cuidados médicos, vamos a necesitar el web scraping:
finanzas e inversión, fabricación y
producción, negocios y marketing, A. Para marketing de
redes de telecomunicación. contenidos.
En realidad, los términos MD y Podemos diseñar un robot que
KDD son a menudo confundidos haga un ‘scrapeo’ de datos
como sinónimos. En general se concretos de una web y los
acepta que la MD es un paso podamos utilizar para generar
particular en el proceso nuestro propio
consistiendo en la aplicación de contenido. Ejemplo: scrapear los
algoritmos específicos para extraer datos estadísticos la web oficial
patrones (modelos) de los datos. de una liga de fútbol para
II. QUE ES LA WEB generar nuestra propia base de
SCRAPING datos.
El web scraping es una técnica que B. Para ganar visibilidad en
sirve para extraer información de redes sociales.
páginas web de forma Podemos utilizar los datos de un
automatizada. Si traducimos del scrapeo para interactuar a través
inglés su significado vendría a de un robot con usuarios en
significar algo así como “escarbar redes sociales. Ejemplo: crear un
una web”. robot en instagram que
seleccione los links de cada foto
y luego programar un Web scraping es el proceso de
comentario en cada entrada. extracción de datos de páginas web
C. Para controlar la imagen y deseadas. También se conoce como
la visibilidad de nuestra extracción de datos y web
marca en internet. harvesting. Las herramientas y el
a través de un scrapeo podemos software de raspado acceden a la
automatizar la posición por la World Wide Web con el Protocolo
que varios artículos de nuestra de transferencia de hipertexto,
web se posicionan en Google o, recopilan datos útiles y los extraen
por ejemplo, controlar la según sus necesidades. La
presencia del nombre de nuestra información se guarda en una base
marca en determinados de datos central o se descarga en su
foros. Ejemplo: rastrear la disco duro para otros usos.
posición en Google de todas las
entradas de nuestro blog. IV. USO DE DATOS
Una de las principales diferencias
III. DIFERENCIAS ENTRE
entre la minería de datos y el
MINERIA DE DATOS
raspado web es cómo se usan y
Y WEB SCRAPING
aplican estas técnicas en la vida
La minería de datos (DM) es un cotidiana. Por ejemplo, la minería
proceso de descubrimiento de de datos se usa para ver cómo
patrones en datasets que diferentes sitios web están
involucra diferentes tecnologías conectados entre sí. Uber y Careem
de aprendizaje automático. En utilizan tecnología de aprendizaje
esta técnica, los datos se extraen automático para calcular ETA para
en diferentes formatos y se sus atracciones y obtener resultados
utilizan para diversos fines. El precisos. El raspado web se usa
objetivo de la minería de datos para una variedad de propósitos,
es obtener información de los como la investigación financiera y
sitios web deseados y académica. Una empresa o empresa
transformarla en estructuras puede utilizar estas técnicas para
comprensibles para usos recopilar datos sobre sus
posteriores. Existen diferentes competidores y aumentar sus
aspectos de esta técnica, como el ventas. Además, desempeñan un
procesamiento previo, la papel vital en la generación de
consideración de la inferencia, la clientes potenciales en Internet y se
consideración de la complejidad, dirigen a una gran cantidad de
las métricas de interés y la clientes.
administración de datos.
V. FUNDAMENTOS DE rasparla de forma deseable y
ESAS TECNICAS descargarla en nuestros discos
duros directamente. Empresas como
Tanto el raspado web como la Amazon y Google usan Import.io
extracción de datos se basan en la para extraer una gran cantidad de
misma base, pero estas páginas web a diario.
metodologías son aplicables en
diferentes ámbitos de la vida. Por B. KIMONO LABS
ejemplo, la extracción de datos se
utiliza para extraer información de Es otro programa confiable de
sitios web existentes y convertirla minería de datos y web scraping.
en un formato legible y escalable. Este software tiene una interfaz
Sin embargo, el raspado web se usa fácil de usar y transforma sus datos
para extraer contenido web e en formularios CSV y JSON.
información de archivos PDF, También puede raspar archivos
documentos HTML y sitios PDF y documentos HTML con este
dinámicos. Podemos utilizar estas servicio. Su tecnología de
metodologías para marketing, aprendizaje automático hace que
publicidad y promoción de nuestras Kimono sea una elección perfecta
marcas y las redes sociales son el para empresas y programadores.
mejor lugar para publicitar sus
REFERENCIAS
productos y servicios. Podemos
generar hasta 15,000 clientes https://idus.us.es/xmlui/handle/114
potenciales en cuestión de minutos. 41/43290
Las páginas web contienen una https://idus.us.es/xmlui/bitstream/h
gran cantidad de información y los andle/11441/43290/Miner%C3%A
datos se pueden raspar solo con Da%20de%20datos.pdf?sequence=
herramientas confiables como 1&isAllowed=y
Import.io y Kimono Labs.
https://books.google.es/books?hl=e
A. IMPORT.IO s&lr=&id=OUDfCQAAQBAJ&oi=
fnd&pg=PP1&dq=web+scraping&
Es uno de los mejores programas de
ots=WJTyszobJ9&sig=wXrfQX_h
extracción de contenido o web
SnOkh1mocKGTBOorExU#v=one
scraping. Import.io ha asegurado
page&q=web%20scraping&f=false
recopilar hasta seis millones de
páginas web hasta el momento, y el http://www.sciedu.ca/journal/index.
número aumenta cada día. Con esta php/air/article/view/1390
herramienta, podemos recopilar
información útil de varios sitios,

Vous aimerez peut-être aussi