Vous êtes sur la page 1sur 10

LE GUIDE WEBSCRAPER

Par Automate #AI


twitter.com/Conference_Inno
t.me/automate_ai

Sold to
vomitiende@gmail.com
I. Introduction à Webscraper.io
Ce document est un guide pour l'utilisation de Webscraper.io, une extension gratuite permettant
l'extraction de données à partir de sites web en utilisant des sitemaps. Ce guide décrit comment
installer et utiliser Webscraper.io, ainsi que comment créer, modifier et exporter des sitemaps.

1. Webscraper.io est un outil qui utilise le menu Chrome Developer tools et permet d'extraire
des informations des sites web.

2. Les sitemaps regroupent toutes les informations relatives à l'extraction d'un site web
particulier en un seul endroit.

3. Les utilisateurs peuvent créer un nouveau sitemap, importer un sitemap existant ou créer
un sitemap vierge et modifier les métadonnées si nécessaire.

4. Le graphique des sélecteurs aide les utilisateurs à comprendre la hiérarchie des


différents sélecteurs et leur position par rapport aux autres.

5. Les utilisateurs peuvent exporter et partager des sitemaps avec d'autres utilisateurs afin
de les importer dans leurs propres outils de recherche sur le web.

1 - Installation de Webscraper.io

Tapez "webscraper.io" dans votre barre d'URL pour accéder au site Web du scraper. Le
site est riche en documentation ainsi qu'un forum très actif. Webscraper.io met
régulièrement à jour ces deux sections avec des informations qui peuvent aider à
résoudre des problèmes spécifiques qui surviennent. Pour installer l'extension elle même,
cliquez sur le bouton “Install”.

© Copyright @Conference_Inno 1
2 - Naviguer vers Webscraper.io

Le scraper se trouve dans le menu Outils de développement. La première façon d'accéder


à ce menu consiste à appuyer sur le bouton F12 sur un Mac ou un PC. L'autre façon
est de cliquer sur les trois points verticaux dans le coin supérieur droit de la fenêtre.
Ces deux méthodes font apparaître le menu du navigateur, qui est le même menu qui
ouvre un nouvel onglet ou une nouvelle fenêtre ainsi que les panneaux d'historique ou
d'impression. Passez la souris sur le texte "Plus d'outils" pour afficher un sous menu. Ce
sous menu a encore plus d'options, mais Webscraper se trouve dans “Outils de
développement” en bas de ce nouveau menu. Cliquez sur "Outils de développement" pour
ouvrir le panneau.

© Copyright @Conference_Inno 2
La première fenêtre qui apparaît lors de la navigation vers Webscraper.io est le panneau
sitemap (voir Créer un sitemap). Un sitemap organise toutes les informations nécessaires
pour Scraper un site Web particulier. Il sera vide lors de l'installation, mais une fois que
vous aurez créé des sitemaps, ils apparaîtront ici. La première colonne répertorie l'ID, ou
le nom de chaque sitemap. La deuxième colonne est l'URL ou l'adresse Web de la
première page de ce sitemap.

II. Création d'un sitemap

1 - Menu sitemap

Webscraper.io s'ouvre automatiquement sur le menu Sitemap, qui répertorie tous les
sitemap créés par l'utilisateur dans le scraper. Ici, les utilisateurs peuvent voir tous leurs
sitemaps à côté de chaque URL de départ. Ils ont également la possibilité de supprimer
des sitemaps. Veillez à ne pas supprimer les sitemaps, car ils ne peuvent pas être
récupérés à moins qu'ils ne soient exportés ailleurs. Cliquez sur le titre ou l'URL d'un
sitemap pour l'ouvrir.

© Copyright @Conference_Inno 3
2.2. Importation d'un sitemap

Un utilisateur qui a déjà créé un sitemap Webscraper.io a la possibilité d'exporter et de


partager ce sitemap avec d'autres utilisateurs pour l'importer dans leurs propres scrapers
Web (voir Exporter des sitemaps). Le bouton "Import sitemap" crée un sitemap, qui peut
ensuite être manipulé. L'importation d'un sitemap nécessite la notation d'objet JavaScript
(JSON) générée par l'instance de Webscraper.io d'un autre utilisateur. Cliquer sur le
bouton 'Import sitemap' fait apparaître deux champs de saisie de texte. L'utilisateur copie
et colle le JSON, qui est formaté d'une manière particulière, dans le plus grand des deux
champs. L'utilisateur peut renommer le sitemap quelque chose de distinct du code JSON
importé dans la deuxième case pour s'assurer qu'il n'y a pas de sitemap en double dans
Webscraper.io.

2.3. Création d'un sitemap vierge

Le bouton 'Create sitemap' ouvre une fenêtre similaire à la fenêtre ouverte par le bouton
'Import sitemap'. La différence ici est qu'il n'y a pas d'informations précédentes et que le
nouveau sitemap ne contiendra aucune information. L'utilisateur crée un nouveau sitemap
au début de tout projet afin de créer les sélecteurs qui extrairont les informations d'un
site Web. Cela nécessite le nom du sitemap et l'URL d'un site Web, qui est généralement
la page d'accueil. Le titre du sitemap a quelques règles : il ne peut pas avoir de
majuscules, limite les caractères spéciaux qu'il reconnaît et doit commencer par une
lettre. Il peut être utile de copier et coller l'URL dans le champ "URL de départ" pour
éviter les erreurs.

© Copyright @Conference_Inno 4
2.4. Modification des métadonnées du projet

Si le nom du sitemap ou l'URL de départ doivent être modifiés, les utilisateurs peuvent le
faire dans le panneau "Modifier les métadonnées" en cas d'erreurs ou si le projet
appartient à un projet plus vaste en dehors du Webscraper qui nécessite une
modification. Le nom du sitemap est presque toujours l'information qui doit être modifiée,
pas l'URL de départ.

Les champs sont modifiés de la même manière que lors de la création du sitemap.
Sachez que la modification de l'URL de départ peut affecter les sélecteurs prédéfinis de
manière involontaire, en particulier ceux qui sélectionnent des informations uniques. Étant
donné que les sélecteurs n'utilisent que le HTML, tout sélecteur sur la page d'accueil
recherchera ce code. Si la page d'accueil change, les sélecteurs rechercheront du code
qui n'existe peut être pas sur la nouvelle page, puis renverront un "null" dans les données
récupérées. Un autre problème qui peut survenir est que le scraper peut extraire les
mauvaises informations. Le code HTML de l'URL de départ peut ne pas changer, mais son
contenu peut avoir changé. Cela peut prêter à confusion lors de l'examen des données
récupérées. Il est sage de revérifier les sélecteurs afin qu'ils agissent toujours comme
prévu après avoir modifié l'URL de départ.

III. Comment créer un sélecteur avec Webscraper.io ?


Pour créer un sélecteur avec Webscraper.io, il faut d'abord ouvrir le site web que vous souhaitez
scraper et cliquer sur le bouton "Create new sitemap" dans le menu Sitemap. Ensuite,
sélectionnez les éléments que vous voulez extraire en cliquant dessus, et des cadres verts
apparaîtront autour d'eux. Ensuite, pour créer un sélecteur, cliquez sur le bouton "Add new
selector", choisissez le type de sélecteur (texte, lien, image, etc.), et sélectionnez les éléments
que vous voulez inclure en cliquant sur eux. Enfin, donnez un nom à votre sélecteur et cliquez sur
"Save" pour l'ajouter à votre sitemap.

© Copyright @Conference_Inno 5
Le bouton “Element Preview” met une surbrillance rouge autour de tous les éléments dans
le code du sélecteur. Cela permet de s'assurer que tous les éléments sont sélectionnés.
En revanche, le bouton "Data Preview" ouvre une fenêtre contextuelle avec un instantané
des données définies pour l'extraction dans ce sélecteur lorsque Webscraper.io récupère le
sitemap.

La case à cocher “Multiple” indique à Webscraper.io d'extraire plus d'un des éléments
sélectionnés. Ceci est utile lorsqu'il existe des listes ou des liens de navigation avec
plusieurs balises identiques sur la page.

IV. Scraper un site Web


Scraper un site web comporte trois étapes principales :

1. Créer un sitemap et des sélecteurs

2. Extraire des informations

3. Exporter des informations

© Copyright @Conference_Inno 6
Cette section traite de la deuxième étape. (Voir les sections 1 à 3 pour la première étape
et les sections 5 à 7 pour la troisième étape.) La création d'un sitemap et de sélecteurs
indique au système quoi faire pendant le processus de scraping. Ensuite, les utilisateurs
demandent à Webscraper.io de parcourir tous les sélecteurs et d'effectuer les actions
définies avec le panneau Scrape, lorsque les données sont réellement extraites du site
Web. Le scraper utilise les informations extraites ici pour générer des aperçus et exporter
des fichiers.

Les utilisateurs ont la possibilité d'ajouter soit un intervalle de demande, soit un délai de
chargement de page à l'ensemble du processus de scraping. (Voir Création d'un
sélecteur). Avec les deux options, le scraper charge les pages avec un timing différent
afin que les sites Web puissent charger les informations avant que le scraper ne
commence à extraire les informations. Le délai est en millisecondes, avec une valeur par
défaut de 2000. Tout ce qui est plus court que cela peut signifier que la page n'a pas
chargé d'informations pour le scraping. Les deux options ajoutent du temps au
chargement d'une page s'il y a beaucoup d'informations ou s'il y a des éléments qui
prennent plus de temps à charger. Une fois l'heure préférée saisie, cliquez sur le bouton
"Démarrer le scraping".

V. Parcourir les données récupérées


Toutes les données extraites peuvent être visualisées en accédant au panneau Browse
(Parcourir). Le scraper redirige automatiquement vers ce panneau lorsqu'un scrape est
terminé.

© Copyright @Conference_Inno 7
Webscraper.io configure les données sous forme de feuille de calcul et fournit un aperçu
des données avant de télécharger le fichier CSV. Cela aide les utilisateurs à s'assurer que
toutes les données sont présentes et prises en compte, y compris les informations
présentes dans les différentes balises HTML et CSS de tous les sélecteurs dans le
sitemap. Notez que l'ID du sélecteur est désormais l'en­tête de la colonne. Le fichier CSV
exporté structurera les données de la même manière que l'aperçu.

VI. Exporter des sitemap


Tout sitemap contenant des informations peut être exporté à l'aide du panneau "Export
sitemap". L'exportation d'un sitemap implique toutes les informations, à l'exception des
données extraites, telles que le nom du sitemap, l'URL de départ et tous les sélecteurs
créés dans le sitemap.

L'exportation du sitemap génère du code JSON dans la boîte qui s'ouvre lorsque les
utilisateurs accèdent au panneau. Le moyen le plus sûr de copier le code consiste à
cliquer dans la zone, puis à appuyer sur CTRL+A pour sélectionner tout le texte. Les
utilisateurs peuvent ensuite copier le code en appuyant sur CTRL+C ou en cliquant avec
le bouton droit de la souris et en sélectionnant "Copier". Le code peut ensuite être collé
sous forme de fichier texte dans un traitement de texte pour enregistrer une copie ou
dans un e­mail pour le partager. Toute modification ailleurs dans Webscraper.io modifiera
également cette exportation, de sorte que les sitemap précédemment enregistrés ne
seront pas exacts.

© Copyright @Conference_Inno 8
Rejoignez-nous sur TELEGRAM https://t.me/automate_ai

Vous y trouverez des astuces exclusives pour:

➔ Scraper les réseaux sociaux (LinkedIn, Twitter, Instagram…)

➔ Scraper les entreprises sur Google Maps

➔ Scraper des annuaires

© Copyright @Conference_Inno 9

Vous aimerez peut-être aussi