Vous êtes sur la page 1sur 6

Dès qu’un site Web est en ligne, le moindre accès au serveur est

automatiquement stocké dans des fichiers journaux ou logfiles. Plus il


y a de visiteurs sur votre site Web, plus vous obtenez des données
que vous pouvez analyser à l’aide d’une analyse de fichiers log.
Comment cela fonctionne, quels sont les avantages d’une analyse de
ce genre et à quoi faut-il prêter attention ? Cette introduction est là
pour répondre à ces premières questions.

Qu’est-ce qu’un fichier log ?


À chaque accès à votre serveur web, une entrée de donnée est
automatiquement stockée. Cette collecte de données est appelée fichier
journal ou fichier log (en anglais logfiles) et est généralement stockée dans
le répertoire racine de votre site Web.

Le serveur peut stocker les données suivantes dans un fichier log :

 le système d’exploitation utilisé par l’utilisateur ou le client


 le navigateur utilisé pour l’accès
 l’heure et la date de l’accès
 requêtes réclamées par le serveur
 le type de protocole, par exemple https
 le nombre d’octets transférés
 l’URL précédemment ouverte par l’utilisateur
 la réponse du serveur
 le nom et le chemin d’accès du fichier
 l‘adresse IP ou l’adresse DNS

Ainsi, jusqu'à dix points de données différents peuvent être enregistrés via un
seul accès.

Vous pouvez télécharger les fichiers log directement à partir du serveur et les
visualiser et les traiter à l'aide d'un outil tel qu'Excel ou Google Sheet.
Quelles sont les données
pertinentes pour l’analyse des
fichiers log ?
Fondamentalement, toutes ces données disponibles vous permettent de tirer
des conclusions importantes sur les performances de votre site Web et la
façon dont le Googlebot fonctionne.
Comme les fichiers log peuvent vite devenir très volumineux, il est important
de limiter la quantité de données. La façon la plus simple d'y parvenir est
de limiter la période évaluée. Souvent, il suffit de se consacrer à une fenêtre
temporelle d'une semaine ou de vérifier les fichiers log après avoir apporté
des modifications à la page, ou encore quand une mise à jour de Google
apparaît.

Théoriquement, vous pouvez toujours analyser toutes les données en une


seule fois et sur n'importe quelle période. Gardez à l'esprit, cependant, que
vous avez besoin des ressources nécessaires pour le faire.

À quoi servent les fichiers log ?


Il existe différentes utilisations pour vos fichiers log. Bien sûr, vous pouvez
analyser le comportement de l'utilisateur, bien que vous disposez pour cela
d’autres outils d’analyse Web comme Google Analytics ou Google Search
Console.
L'analyse de fichiers log est donc plus orientée vers les robots qui visitent
votre site, et en particulier le Googlebot.

Les aspects suivants sont à cet égard importants :


Comment votre site Web est-il exploré ?

Si vous identifiez le Googlebot comme client, vous pouvez utiliser l'analyse de


fichiers log pour savoir comment ce bot traite vos URL. Par exemple, vous
pouvez voir combien de fois le Googlebot explore quelles pages. Vous pouvez
également voir comment le bot gère les paramètres.
Mon site Web est-il rapide ?

Bien entendu, Google Analytics vous indique également le temps de réaction


de votre serveur. Mais l'analyse de fichiers log vous en donne un aperçu plus
détaillé et vous montre combien de temps il faut à un bot pour télécharger une
ressource depuis votre serveur.
Mon site Web est-il sujet à des problèmes d'indexation ?

L'analyse de fichiers log peut précisément vous montrer si les robots


téléchargent vos pages complètement ou seulement partiellement. Les logfiles
vous aident également à identifier les pages moins performantes. Si le
Googlebot ne peut pas charger complètement vos URL, il peut y avoir des
problèmes techniques qui l'empêchent d’accomplir l’exploration. Le
fichier robots.txt, qui empêche l'exploration de toutes les zones du site Web,
peut également être défectueux.
Par quels bots de Google votre page est-elle explorée ?

Google utilise différents robots d'exploration pour les images ou son index


mobile. L'activité de ces robots d'exploration peut vous indiquer si votre site
Web est indexé de préférence pour le contenu mobile ou non.
À quelle fréquence une URL est-elle parcourue ?

Vous pouvez utiliser la fréquence d'exploration pour voir si vos URLs revêtent
un certain intérêt pour le Googlebot. Les URL moins importantes sont moins
souvent explorées. Vous pouvez ensuite en déduire des mesures
d'optimisation. Pour que le Googlebot puisse utiliser au mieux son budget
d’exploration (crawl budget), l'actualité d'une URL joue également un rôle
important. Pour augmenter la fréquence d’exploration de la part du Googlebot,
il est conseillé de tenir à jour ainsi que de compléter régulièrement le contenu
d’une URL.
Mon site rencontre-t-il des problèmes d’exploration ?

La réponse du serveur, qui est également stockée dans les fichiers log, vous
indique si le Googlebot a rencontré des problèmes d'exploration avec vos
URL. Vous obtenez également des conseils sur les chaînes de redirection
possibles ou les URL incorrectes. Les chaînes de redirections empêchent le
Googlebot de parcourir votre page de manière optimale, de sorte qu'en cas de
doute, la navigation est interrompue.

Sur la base de ces questions, vous pouvez lancer une analyse de vos fichiers
log. Vous serez amené à traiter une énorme quantité de données et, bien sûr,
les évaluer judicieusement. Dans la prochaine étape, il est important de
dériver des mesures pour améliorer la performance de votre site Web à partir
de ces données.
Analyse des fichiers log et
protection des données
Étant donné que les adresses IP, le navigateur utilisé et le système
d'exploitation utilisé par l'utilisateur sont enregistrés dans les logfiles, vous
devez prendre en compte la protection des données lors du traitement de
ces données.
Ce que vous devez faire :
 Adaptez votre politique de confidentialité : informez vos utilisateurs
dans votre politique de confidentialité que vous évaluez ces données. Assurez
aussi que les données enregistrées ne seront utilisées qu’à des fins
statistiques et ne seront pas transmises à des tiers. En revanche, si vous
utilisez un outil pour cela, vous devez disposer d’un contrat de traitement de
données conforme au RGPD.
 Ne créez aucun lien vers d’autres données : pour des raisons de
confidentialité, vous ne pouvez pas combiner ou connecter des données
résultant de l’analyse de fichiers log avec d’autres données, par exemple les
données personnelles des clients.
 Afin de respecter les normes élevées sur la protection des
données, anonymisez les adresses IP ou faites-les stocker anonymement par
votre serveur.

Limites de l’analyse des fichiers log


Les fichiers log permettent certes l’analyse de beaucoup de données. Mais
c’est justement cette quantité de données qui peut poser des problèmes. Voici
une liste des sources d'erreurs possibles et comment les résoudre :

Les crawlers de tools SEO se font passer pour le Googlebot

Dans ce cas, une analyse de vos fichiers log peut conduire à des données
incorrectes. Vous pouvez corriger cette erreur en effectuant une recherche
par DNS. Cela vous dira si c'est vraiment un Googlebot ou d'autres bots.
La quantité de données devient énorme et ne peut plus être traitée par
vous

Un petit exemple : si vous exploitez un grand site Web et qu'environ 1 000


visiteurs accèdent à votre serveur chaque jour, plus de 1 000 entrées sont
créées dans les fichiers log, y compris l'accès depuis des robots. En un mois,
plus de 30 000 lignes seront ajoutées à votre fichier Excel. Mais que se passe-
t-il si vous recevez dix fois plus de trafic ? Des outils tels que les tableurs
Excel ou Google atteindront leurs limites au plus tard à un peu plus d'un
million de lignes. Les processus simples tels que le tri ou les fonctions de
comptage nécessitent alors une telle puissance de calcul qu'il n'est plus
possible de les gérer avec des stockages conventionnels. Seuls les solutions
en cloud peuvent remédier à ces opérations arithmétiques de grande
envergure.
Elle ne collecte pas toutes les données pertinentes

Certes, vous avez la possibilité de personnaliser le type de données stockées.


Mais il peut arriver rapidement que le stockage des fichiers log n'ait pas été
correctement configuré et que trop peu de données soient collectées ou que
vos listes soient incomplètes. Par conséquent, vous devez toujours évaluer
régulièrement les logfiles et vérifier qu'ils sont complets.
Les fichiers log sont insuffisants pour l'analyse du comportement des
utilisateurs

L'analyse des fichiers log est avant tout une analyse des accès des robots à
votre site Web. Les données ne suffisent donc pas pour une analyse détaillée
des utilisateurs. Pour cette raison, les fichiers log ne peuvent être qu'un
complément aux outils d'analyse web existants, mais ne peuvent pas les
remplacer dans l'analyse du comportement utilisateur.

Conclusion
Les fichiers log vous fournissent une énorme base de données pour l'analyse
des bots. Cette analyse est de plus automatiquement sauvegardée par le
serveur. Obtenir ces données n’est cependant pas si facile.

Avec des petits sites Web, les données collectées peuvent être traitées et
analysées au moyen de tableaux standards comme Excel ou Google.
Cependant, une fois que vous comptabilisez plusieurs milliers de visites par
jour, vous avez besoin de très grandes ressources pour analyser efficacement
les logfiles. Sans outils à la puissance de calcul appropriée, vous atteindrez
vite vos limites. Il est de plus important de considérer les aspects liés au
RGPD, afin que les sessions utilisateur ne tombent pas entre de mauvaises
mains. Tout cela implique un important apport de ressources (employés,
technologie, temps), ce qui entraîne des coûts correspondants et, en raison de
l'effort, des analyses irrégulières.
Pour y remédier, Ryte vous propose une alternative simple et rapide à
l'analyse classique des fichiers log.

BotLogs – l’alternative intelligente à


l’analyse logfiles
Le tout nouvel outil de Ryte, BotLogs, se base sur deux principes clés : la
sélection intelligente des données et la technologie intelligente.

La sélection des données garantit que seul le trafic du bot est traité, les
sessions des utilisateurs entrants sont ignorées. Cela réduit considérablement
la quantité de données à analyser et vous aide à vous concentrer sur les
robots.