Vous êtes sur la page 1sur 3

Une introduction aux techniques d’extraction de l’information du web

L'extraction de données est un terme très large qui consiste à récupérer des données à partir de
n'importe quelle source: sites Web, bases de données ou même des sources physiques comme des
journaux, des livres et des rapports. L'extraction de données Web est alors synonyme de web scraping.
Le Scrapping : Le web scraping est une technique d'extraction du contenu de sites Web, via un script
ou un programme, dans le but de le transformer pour permettre son utilisation dans un autre contexte.
Les applications du scraping sont nombreuses comme la réutilisation de contenus, la surveillance des
prix…
Le but du scraping est de transformer des informations non structurées présentes dans des pages web
en données structurées facilement exploitables.
Le Crawler : Un robot d'indexation est un logiciel qui explore automatiquement le Web. Il est
généralement conçu pour collecter les ressources, afin de permettre à un moteur de recherche de les
indexer. Le crawling consiste à parcourir et indexer le Web afin d’en établir la cartographie.
Comparaison entre scraping et crawling
Le crawler découvre lui-même les sites parcourus et les pages web téléchargées. Le scraper travaille
sur un site ou ensemble de sites connus par avance. Le scraper pourra alors être un logiciel paramétré
de façon à récupérer les données souhaitées sur le site en question ou bien un programme développé
spécifiquement pour cette tâche et donc parfaitement adapté au site.

Comparaison entre le scraping et le crawling

Scraping Crawling

- Consiste à extraire des données provenant - Se réfère à téléchargement des pages du web
de diverses sources, y compris web
- Peut être fait à toute échelle - La plupart du temps fait à grande échelle
- La déduplication n'est pas nécessaire - La déduplication est une partie essentielle
- Besoin d'un Crawl agent et un parseur - Besoin seulement d'un Crawl agent

Le Parseur : Il permet de parcourir le contenu d'un texte ou d'un fichier en l'analysant pour vérifier sa
syntaxe ou en extraire des éléments.
Le Flux RSS : RSS signifie ‘Really Simple Syndication’ : publication vraiment simple - Un flux
RSS est un format de fichier particulier dont le contenu est produit automatiquement en fonction des
mises à jour d'un site web. Ce contenu est laissé au libre choix du producteur du flux, mais
généralement se compose des titres des mises à jour de pages ou d'articles, des liens hypertextes
correspondants, et de descriptions, en quelques lignes, de ces mises à jour.
Agrégateur de flux : Un agrégateur de flux permet d'organiser les données collectées de manière
efficace, en offrant la possibilité de récupérer rapidement les flux RSS des sites surveillés
(récupération à partir de l'url, d'un bookmarklet...), de paramétrer précisément l'organisation des flux…
Modes de collecte : Selon le mode de collecte de l’information, l’extraction des données reposent sur
la méthode du push d’information et/ou du pull d’information :
 Méthode du push d’information : l’utilisateur cherche l’information ;
 Méthode du pull d’information : l’information parvient automatiquement à l’utilisateur.

Plan de rédaction provisoire :


Scrapeur
 Techniques utilisées
 Fonctions de base
 Fonctions avancées
 Algorithmes
 Performances

Crawler
 Techniques utilisées
 Fonctions de base
 Fonctions avancées
 Algorithmes
 Performances

Parseur
 Techniques utilisées
 Fonctions de base
 Fonctions avancées
 Performances
 Algorithmes
 Paramétrage

Alertes
 Flux RSS
 Google Alertes
 Tweeter Alertes
 Paramétrage
 Performances

Aggrégateur de flux
 Flux RSS
 Types de flux
 Paramétrage
 Performances

Dashboard
 Techniques utilisées
 Fonctions de base
 Fonctions avancées
 Performances
 Paramétrage, filtres

Une ouverture sur les outils d’analyse de Data-mining et de Text-mining


 Outils opensource
 APIs disponibles
 Algorithmes

Vous aimerez peut-être aussi