M5C2 - Etre Indexé Sur Les Moteurs de Recherche

Être indexé sur les
moteurs de
recherche
Baptiste Dodane
La base de la base : le crawl
Le crawl est l'activité d'exploration des contenus web menée

par un moteur de recherche à des fins d'indexation.
Être indexé, c’est rendre le crawl possible
1. Un fichier robots.txt
2. Un sitemap
3. Des entêtes de pages (ou meta robots)

Être bien indexé, c’est simplifier le crawl
Facilitez la vie des crawlers, et votre contenu sera accessible

plus rapidement.
Et concrètement…
Le fichier robots.txt
Un bon robots.txt
● Doit exister
● Doit s’appeler robots.txt (en minuscules,
et pas autrement)
● Doit peser moins de 500 Ko
● Doit renvoyer un status 200 à Google
● Doit être à la racine de votre site, à
l’URL votresite.com/robots.txt
● Ne doit contenir que 4 indications (pour
Google) dans cet ordre :
○ User-agent:
○ Disallow:
○ Allow:
○ Sitemap:
Quelques exemples
Permission complète + Sitemap

Permission complète
User-agent: *
User-agent: * Disallow:
Disallow: Sitemap:
https://www.livementor.com/sitemap_index.x
ml
Interdiction complète sauf Google

Interdiction partielle sur l’admin
User-agent: *
Disallow: / User-agent: *
Disallow: /wp-admin/
User-agent: googlebot Allow: /wp-admin/admin-ajax.php
Disallow:
Éditer et vérifier son fichier robots.txt avec WP
● Pour l’éditer : Yoast -> Outils -> Éditeur de fichiers
● Pour le vérifier : Google Search Console -> Robots Testing
Tool
Et concrètement…
Le sitemap
Un bon sitemap doit
● Exister
● Être structuré via un langage xml
● Être accessible à la racine de votre site
(votresite.com/sitemap.xml)
● Contenir au maximum 50 K d’URLs et
peser 50 Mo (décompressé)
● Être subdivisé en plusieurs sitemaps
référencés dans un sitemap_index si la
taille l’exige (ou la multiplicité des espaces
: blog vs vitrine)
● Être complet et à jour
● Ne contenir que des URLs indexées
● Être soumis directement auprès des
moteurs de recherche (Google Search
Console)
Éditer et vérifier son fichier sitemap avec WP
Pour l’éditer : Yoast -> Réglages généraux -> Fonctionnalités ->

Plan de site XML
En alternative (déconseillé) : éditer manuellement un sitemap en

ligne avec xml-sitemaps ou avec ScreamingFrog.
Vérifier son fichier sitemap avec Google Search
Console
Pour le soumettre : Google Search Console -> Sitemaps

Et concrètement…
La balise meta robots
La balise meta robots et ses 3 versions
Elle précise si : <meta name="robots" content="noindex,

Une page doit apparaître dans les follow"> :
moteurs de recherche.
La page ne sera pas indexée, mais les liens
Les liens de la page doivent être
explorés. seront pris en compte.
<meta name="robots" content="index,

<meta name="robots" nofollow"> :
content="noindex, nofollow"> : La page sera indexée, mais on dira aux
Il n’y aura ni indexation de la page ni robots que l’on n’est pas sûr de la qualité des
prise en compte des liens. liens sortants et qu’il ne faut donc pas les
suivre.
Éditer et vérifier ses metas robots avec WP
Pour l’éditer : Yoast -> Sous

chaque page côté édition
WP
Et concrètement…
Les canonicals
Insérer une canonical dans sa balise <head>
Se reposer sur Yoast
La balise à la dure
<head>
<link rel= “canonical”
href=
“http://monsite.fr/pagefav
orite” />
</head>
Il n’y a pas de question stupide !
Comment choisir les pages à indexer ?
Pourquoi ne pas lister les pages à
no-index dans le fichier robots.txt
directement ?
Pourquoi choisir un no-follow sur
ses liens ?
Devrais-je donc passer tous mes
liens en no-follow ?
Qu’est-ce qu’un lien dofollow ?
Si certaines pages ne servent à rien
en SEO, devrais-je plutôt les
supprimer ?
Une de mes pages est indexée, j’ai
besoin de la désindexer, comment
faire ?
Comment ne laisser passer que les
bons robots ?
J’ai plusieurs sous-domaines, cela
veut-il dire plusieurs sitemaps ?
À quelle fréquence un fichier
robots.txt est-il consulté ?
Merci !

M5C2 - Etre Indexé Sur Les Moteurs de Recherche

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

M5C2 - Etre Indexé Sur Les Moteurs de Recherche

Transféré par

Droits d'auteur :

Formats disponibles

Être indexé sur les

Le crawl est l'activité d'exploration des contenus web menée

3. Des entêtes de pages (ou meta robots)

Facilitez la vie des crawlers, et votre contenu sera accessible

Permission complète + Sitemap

Interdiction complète sauf Google

● Pour l’éditer : Yoast -> Outils -> Éditeur de ﬁchiers

● Pour le vériﬁer : Google Search Console -> Robots Testing

Pour l’éditer : Yoast -> Réglages généraux -> Fonctionnalités ->

En alternative (déconseillé) : éditer manuellement un sitemap en

Pour le soumettre : Google Search Console -> Sitemaps

Elle précise si : <meta name="robots" content="noindex,

<meta name="robots" content="index,

Pour l’éditer : Yoast -> Sous

Se reposer sur Yoast

Vous aimerez peut-être aussi