Académique Documents
Professionnel Documents
Culture Documents
moteurs de
recherche
Baptiste Dodane
La base de la base : le crawl
1. Un fichier robots.txt
2. Un sitemap
● Doit exister
● Doit s’appeler robots.txt (en minuscules,
et pas autrement)
● Doit peser moins de 500 Ko
● Doit renvoyer un status 200 à Google
● Doit être à la racine de votre site, à
l’URL votresite.com/robots.txt
● Ne doit contenir que 4 indications (pour
Google) dans cet ordre :
○ User-agent:
○ Disallow:
○ Allow:
○ Sitemap:
Quelques exemples
Tool
Et concrètement…
Le sitemap
Un bon sitemap doit
● Exister
● Être structuré via un langage xml
● Être accessible à la racine de votre site
(votresite.com/sitemap.xml)
● Contenir au maximum 50 K d’URLs et
peser 50 Mo (décompressé)
● Être subdivisé en plusieurs sitemaps
référencés dans un sitemap_index si la
taille l’exige (ou la multiplicité des espaces
: blog vs vitrine)
● Être complet et à jour
● Ne contenir que des URLs indexées
● Être soumis directement auprès des
moteurs de recherche (Google Search
Console)
Éditer et vérifier son fichier sitemap avec WP
La balise à la dure
<head>
<link rel= “canonical”
href=
“http://monsite.fr/pagefav
orite” />
</head>
Il n’y a pas de question stupide !
Comment choisir les pages à indexer ?
Pourquoi ne pas lister les pages à
no-index dans le fichier robots.txt
directement ?
Pourquoi choisir un no-follow sur
ses liens ?
Devrais-je donc passer tous mes
liens en no-follow ?
Qu’est-ce qu’un lien dofollow ?
Si certaines pages ne servent à rien
en SEO, devrais-je plutôt les
supprimer ?
Une de mes pages est indexée, j’ai
besoin de la désindexer, comment
faire ?
Comment ne laisser passer que les
bons robots ?
J’ai plusieurs sous-domaines, cela
veut-il dire plusieurs sitemaps ?
À quelle fréquence un fichier
robots.txt est-il consulté ?
Merci !