dynamo2724@gmail.com Programa Ingeniería de Sistemas - Universidad de Cundinamarca
Abstract— Now a days, data expansión de su uso en diferentes
mining (MD) is increasingly aspectos de la vida, se continúa getting the attention of recogiendo y almacenando en bases companies. It is still infrequent to de datos gran cantidad de hear phrases like "we should información. Descubrir segment our customers using MD conocimiento de este enorme tools", "the MD will increase volumen de datos es un reto en sí customer satisfaction", or "the mismo. La minería de datos (MD) competition is using MD to gain es un intento de buscarle sentido a market share". However, la explosión de información que everything points to the fact that actualmente puede ser almacenada. sooner or later data mining will Hoy en día, los datos no están be used by society, at least with restringidos a tulpas representadas the same weight that Statistics únicamente con números o currently has. So what is data caracteres. El avance de la mining and what are the tecnología para la gestión de bases benefits? How can this de datos hace posible integrar technology influence the diferentes tipos de datos, tales como resolution of the daily problems imagen, video, texto, y otros datos of companies and society in numéricos, en una base de datos general? What technologies are sencilla, facilitando el behind data mining? What is the procesamiento multimedia. Como life cycle of a typical data mining resultado, la mezcla tradicional ad project? hoc de técnicas estadísticas y herramientas de gestión de datos no I. INTRODUCCIÓN son adecuadas por más tiempo para analizar esta vasta colección de La revolución digital ha hecho datos desiguales. posible que la información La tecnología de Internet actual y digitalizada sea fácil de capturar, su creciente demanda necesita el procesar, almacenar, distribuir, y desarrollo de tecnologías de minería transmitir. Con el importante de datos más avanzadas para progreso en informática y en las información y el conocimiento de tecnologías relacionadas y la los datos distribuidos por todo el mundo. En este siglo la demanda Su uso está muy claro: podemos continuará creciendo, y el acceso a aprovechar el web scraping para grandes volúmenes de datos conseguir cantidades industriales de multimedia traerá la mayor información (Big data) sin teclear transformación para el global de la una sola palabra. A través de los sociedad. Por tanto, el desarrollo de algoritmos de búsqueda podemos la tecnología de minería de datos rastrear centenares de webs para avanzada continuará siendo una extraer sólo aquella información importante área de estudio, y en que necesitamos. consecuencia se espera gastar muchos recursos en esta área de Para ello nos será muy útil desarrollo en los próximos años. dominar regex (regular expression) Existen diversos dominios donde se para delimitar las búsquedas o almacenan grandes volúmenes de hacerlas más precisas y que el información en bases de datos filtrado de la información sea centralizadas y distribuidas, como mejor. por ejemplo librerías digitales, archivos de imágenes, Algunos ejemplos para los cuales bioinformática, cuidados médicos, vamos a necesitar el web scraping: finanzas e inversión, fabricación y producción, negocios y marketing, A. Para marketing de redes de telecomunicación. contenidos. En realidad, los términos MD y Podemos diseñar un robot que KDD son a menudo confundidos haga un ‘scrapeo’ de datos como sinónimos. En general se concretos de una web y los acepta que la MD es un paso podamos utilizar para generar particular en el proceso nuestro propio consistiendo en la aplicación de contenido. Ejemplo: scrapear los algoritmos específicos para extraer datos estadísticos la web oficial patrones (modelos) de los datos. de una liga de fútbol para II. QUE ES LA WEB generar nuestra propia base de SCRAPING datos. El web scraping es una técnica que B. Para ganar visibilidad en sirve para extraer información de redes sociales. páginas web de forma Podemos utilizar los datos de un automatizada. Si traducimos del scrapeo para interactuar a través inglés su significado vendría a de un robot con usuarios en significar algo así como “escarbar redes sociales. Ejemplo: crear un una web”. robot en instagram que seleccione los links de cada foto y luego programar un Web scraping es el proceso de comentario en cada entrada. extracción de datos de páginas web C. Para controlar la imagen y deseadas. También se conoce como la visibilidad de nuestra extracción de datos y web marca en internet. harvesting. Las herramientas y el a través de un scrapeo podemos software de raspado acceden a la automatizar la posición por la World Wide Web con el Protocolo que varios artículos de nuestra de transferencia de hipertexto, web se posicionan en Google o, recopilan datos útiles y los extraen por ejemplo, controlar la según sus necesidades. La presencia del nombre de nuestra información se guarda en una base marca en determinados de datos central o se descarga en su foros. Ejemplo: rastrear la disco duro para otros usos. posición en Google de todas las entradas de nuestro blog. IV. USO DE DATOS Una de las principales diferencias III. DIFERENCIAS ENTRE entre la minería de datos y el MINERIA DE DATOS raspado web es cómo se usan y Y WEB SCRAPING aplican estas técnicas en la vida La minería de datos (DM) es un cotidiana. Por ejemplo, la minería proceso de descubrimiento de de datos se usa para ver cómo patrones en datasets que diferentes sitios web están involucra diferentes tecnologías conectados entre sí. Uber y Careem de aprendizaje automático. En utilizan tecnología de aprendizaje esta técnica, los datos se extraen automático para calcular ETA para en diferentes formatos y se sus atracciones y obtener resultados utilizan para diversos fines. El precisos. El raspado web se usa objetivo de la minería de datos para una variedad de propósitos, es obtener información de los como la investigación financiera y sitios web deseados y académica. Una empresa o empresa transformarla en estructuras puede utilizar estas técnicas para comprensibles para usos recopilar datos sobre sus posteriores. Existen diferentes competidores y aumentar sus aspectos de esta técnica, como el ventas. Además, desempeñan un procesamiento previo, la papel vital en la generación de consideración de la inferencia, la clientes potenciales en Internet y se consideración de la complejidad, dirigen a una gran cantidad de las métricas de interés y la clientes. administración de datos. V. FUNDAMENTOS DE rasparla de forma deseable y ESAS TECNICAS descargarla en nuestros discos duros directamente. Empresas como Tanto el raspado web como la Amazon y Google usan Import.io extracción de datos se basan en la para extraer una gran cantidad de misma base, pero estas páginas web a diario. metodologías son aplicables en diferentes ámbitos de la vida. Por B. KIMONO LABS ejemplo, la extracción de datos se utiliza para extraer información de Es otro programa confiable de sitios web existentes y convertirla minería de datos y web scraping. en un formato legible y escalable. Este software tiene una interfaz Sin embargo, el raspado web se usa fácil de usar y transforma sus datos para extraer contenido web e en formularios CSV y JSON. información de archivos PDF, También puede raspar archivos documentos HTML y sitios PDF y documentos HTML con este dinámicos. Podemos utilizar estas servicio. Su tecnología de metodologías para marketing, aprendizaje automático hace que publicidad y promoción de nuestras Kimono sea una elección perfecta marcas y las redes sociales son el para empresas y programadores. mejor lugar para publicitar sus REFERENCIAS productos y servicios. Podemos generar hasta 15,000 clientes https://idus.us.es/xmlui/handle/114 potenciales en cuestión de minutos. 41/43290 Las páginas web contienen una https://idus.us.es/xmlui/bitstream/h gran cantidad de información y los andle/11441/43290/Miner%C3%A datos se pueden raspar solo con Da%20de%20datos.pdf?sequence= herramientas confiables como 1&isAllowed=y Import.io y Kimono Labs. https://books.google.es/books?hl=e A. IMPORT.IO s&lr=&id=OUDfCQAAQBAJ&oi= fnd&pg=PP1&dq=web+scraping& Es uno de los mejores programas de ots=WJTyszobJ9&sig=wXrfQX_h extracción de contenido o web SnOkh1mocKGTBOorExU#v=one scraping. Import.io ha asegurado page&q=web%20scraping&f=false recopilar hasta seis millones de páginas web hasta el momento, y el http://www.sciedu.ca/journal/index. número aumenta cada día. Con esta php/air/article/view/1390 herramienta, podemos recopilar información útil de varios sitios,
Excel para principiantes: Aprenda a utilizar Excel 2016, incluyendo una introducción a fórmulas, funciones, gráficos, cuadros, macros, modelado, informes, estadísticas, Excel Power Query y más
Inteligencia artificial: Lo que usted necesita saber sobre el aprendizaje automático, robótica, aprendizaje profundo, Internet de las cosas, redes neuronales, y nuestro futuro
ChatGPT Ganar Dinero Desde Casa Nunca fue tan Fácil Las 7 mejores fuentes de ingresos pasivos con Inteligencia Artificial (IA): libros, redes sociales, marketing digital, programación...