Vous êtes sur la page 1sur 29

Être indexé sur les

moteurs de
recherche
Baptiste Dodane
La base de la base : le crawl

Le crawl est l'activité d'exploration des contenus web menée


par un moteur de recherche à des fins d'indexation.
Être indexé, c’est rendre le crawl possible

1. Un fichier robots.txt

2. Un sitemap

3. Des entêtes de pages (ou meta robots)


Être bien indexé, c’est simplifier le crawl

Facilitez la vie des crawlers, et votre contenu sera accessible


plus rapidement.
Et concrètement…
Le fichier robots.txt
Un bon robots.txt

● Doit exister
● Doit s’appeler robots.txt (en minuscules,
et pas autrement)
● Doit peser moins de 500 Ko
● Doit renvoyer un status 200 à Google
● Doit être à la racine de votre site, à
l’URL votresite.com/robots.txt
● Ne doit contenir que 4 indications (pour
Google) dans cet ordre :
○ User-agent:
○ Disallow:
○ Allow:
○ Sitemap:
Quelques exemples

Permission complète + Sitemap


Permission complète
User-agent: *
User-agent: * Disallow:
Disallow: Sitemap:
https://www.livementor.com/sitemap_index.x
ml

Interdiction complète sauf Google


Interdiction partielle sur l’admin
User-agent: *
Disallow: / User-agent: *
Disallow: /wp-admin/
User-agent: googlebot Allow: /wp-admin/admin-ajax.php
Disallow:
Éditer et vérifier son fichier robots.txt avec WP

● Pour l’éditer : Yoast -> Outils -> Éditeur de fichiers

● Pour le vérifier : Google Search Console -> Robots Testing

Tool
Et concrètement…
Le sitemap
Un bon sitemap doit
● Exister
● Être structuré via un langage xml
● Être accessible à la racine de votre site
(votresite.com/sitemap.xml)
● Contenir au maximum 50 K d’URLs et
peser 50 Mo (décompressé)
● Être subdivisé en plusieurs sitemaps
référencés dans un sitemap_index si la
taille l’exige (ou la multiplicité des espaces
: blog vs vitrine)
● Être complet et à jour
● Ne contenir que des URLs indexées
● Être soumis directement auprès des
moteurs de recherche (Google Search
Console)
Éditer et vérifier son fichier sitemap avec WP

Pour l’éditer : Yoast -> Réglages généraux -> Fonctionnalités ->


Plan de site XML

En alternative (déconseillé) : éditer manuellement un sitemap en


ligne avec xml-sitemaps ou avec ScreamingFrog.
Vérifier son fichier sitemap avec Google Search
Console

Pour le soumettre : Google Search Console -> Sitemaps


Et concrètement…
La balise meta robots
La balise meta robots et ses 3 versions

Elle précise si : <meta name="robots" content="noindex,


Une page doit apparaître dans les follow"> :
moteurs de recherche.
La page ne sera pas indexée, mais les liens
Les liens de la page doivent être
explorés. seront pris en compte.

<meta name="robots" content="index,


<meta name="robots" nofollow"> :
content="noindex, nofollow"> : La page sera indexée, mais on dira aux
Il n’y aura ni indexation de la page ni robots que l’on n’est pas sûr de la qualité des
prise en compte des liens. liens sortants et qu’il ne faut donc pas les
suivre.
Éditer et vérifier ses metas robots avec WP

Pour l’éditer : Yoast -> Sous


chaque page côté édition
WP
Et concrètement…
Les canonicals
Insérer une canonical dans sa balise <head>

Se reposer sur Yoast

La balise à la dure

<head>
<link rel= “canonical”
href=
“http://monsite.fr/pagefav
orite” />
</head>
Il n’y a pas de question stupide !
Comment choisir les pages à indexer ?
Pourquoi ne pas lister les pages à
no-index dans le fichier robots.txt
directement ?
Pourquoi choisir un no-follow sur
ses liens ?
Devrais-je donc passer tous mes
liens en no-follow ?
Qu’est-ce qu’un lien dofollow ?
Si certaines pages ne servent à rien
en SEO, devrais-je plutôt les
supprimer ?
Une de mes pages est indexée, j’ai
besoin de la désindexer, comment
faire ?
Comment ne laisser passer que les
bons robots ?
J’ai plusieurs sous-domaines, cela
veut-il dire plusieurs sitemaps ?
À quelle fréquence un fichier
robots.txt est-il consulté ?
Merci !

Vous aimerez peut-être aussi