Analyse de logs : pourquoi et comment en faire ?

Bien que quelquefois méconnue l’Analyse de logs est depuis quelques années de plus en plus utilisée en SEO, vous en avez sans doute déjà entendu parler sans vraiment savoir de quoi il s’agissait.

Complémentaire aux stratégies de netlinking, d’optimisation de vos pages, ou encore de corrections des pages d’erreur 404, cette analyse peut s’avérer très utile dans le cadre de votre stratégie SEO.

Avant cela, faisons d’abord le point sur les notions que sont les logs et le budget crawl !

Qu’est ce qu’un fichier de logs ?

Les logs sont des lignes d’informations qui sont contenues dans un fichier rattaché au serveur de votre site internet.

Ces fichiers sont souvent composés de milliers de lignes qui retracent les appels aux serveurs.

À chaque appel généré (appels qui sont généralement appelés des “hits”) par un internaute ou par un robot, le serveur ajoute une ou plusieurs lignes dans son historique, ce qui constitue une pile d’informations super utiles !

Parmi ces données figurent :

la date et l’heure de la requête (le timestamp),
l’adresse IP du client,
l’URL recherchée,
le fichier cible (url, image, ressources javascript, css…),
l’agent utilisateur ou “user agent” en anglais (à savoir le moteur de recherche, ex Google, Bing…),
ainsi que le type d’erreur rencontré (404,501 etc.)…

Qu’est ce que le budget crawl ?

Le crawl

En SEO, le « crawl” représente l’exploration que les moteurs de recherches effectuent sur les sites web, pour y parvenir les moteurs de recherches comme Google, Bing… utilisent des robots aussi communément appelés “bots” ou “spiders”.

La mission de ces logiciels est d’explorer fréquemment l’ensemble des pages des liens présents sur les sites internet.

Pourquoi faire ? Pour pouvoir analyser l’ensemble des pages, prendre en compte ces données et les indexer pour les rendre visibles aux internautes.

Lorsque c’est dernier sont visibles sur les SERP, ils s’affichent sous la forme des balises titres (les fameux liens bleu) C’est donc quotidiennement que les robots passent sur un site, voire plusieurs fois par jour sur certaines pages, pour prendre en compte les nouvelles pages et les mises à jour des pages déjà analysées.

Revenons en à notre budget crawl

La notion de budget ici n’est pas financière, mais temporelle !

Pour faire simple le crawl budget ou “temps de crawl” correspond au temps que les robots de Google vont accorder à l’exploration d’un site. À chaque interaction du robot avec une page d’un site un “hit” est enregistré.

Ce temps varie en fonction de différents signaux comme la profondeur des pages, le nombre de pages, la popularité du site, la fraîcheur des contenus…

L’enjeu derrière le fait de faciliter la navigation de Googlebot, ou d’un autre moteur de recherche sur votre site, est qu’il puisse passer le plus souvent possible (car il naviguera alors rapidement) et mettre dans son index toutes les pages stratégiques d’un site.

C’est là qu’entre en jeu l’analyse de logs !

L’objectif d’une analyse de logs

L’intérêt de l’analyse des logs est de maximiser les “hits” du budget de crawl disponible sur le site. Cela permet de mieux allouer le « temps » des bots vers les pages à forte valeur ajoutée pour le référencement.

Pour ce faire, nous utilisons des outils d’analyse de logs qui permettent d’étudier le comportement du moteur de recherche afin d’étudier et comprendre leur comportement.

Ces outils retraçant l’ensemble des événements permettent la découverte d’informations précieuses.

Quelles données utiles fournissent une analyse de logs ?

Les outils pour analyser les logs

Avant d’y répondre, voici une liste des logiciels les plus connues pour analyser les logs d’un site :

Les informations pertinentes à extraire et analyser

Les pages orphelines

Les pages orphelines sont des pages d’un site qui sont en ligne et connues par Google, mais qui ne sont pas rattachées à votre site. Elles ne comportent aucun lien interne pointant vers elles.

Pour obtenir les pages orphelines, c’est-à-dire les pages qui ne sont pas incluent dans le maillage interne, il faut coupler votre analyse de logs, qui prend en compte l’ensemble des pages de la structure, à un crawl via un outil SEO, pour en ressortir de nombreuses analyses.

La fréquence de crawl (exploration)

Il est également possible de connaître la fréquence d’exploration des pages d’un site. Cette donnée est très intéressante, car elle permet de connaître le nombre de fois qu’un bot vient explorer les pages d’un site (selon la période analysée). Cet indicateur vous permet donc de savoir quelles sont les pages recevant le plus de visites des robots ou, au contraire, celles qui en reçoivent le moins.

Les codes HTTP

L’analyse des codes HTTP a pour intérêt de réduire au maximum le nombre de hits sur des pages répondant en erreurs 404, 500 ou comportant des redirections. Notons que les codes HTTP remontés par l’analyse de logs ne sont pas les mêmes que ceux remontées par un crawler. Là où le crawler ne remonte que les pages comprises dans le maillage interne, l’analyse de logs fournit l’ensemble des informations.

Il existe encore beaucoup de données que vous pouvez obtenir via l’analyse de logs, pour y parvenir une seule solution : pratiquer !

Ces articles pourraient vous intéresser

Voir tous les articles