Zoom sur le budget crawl et comment l’optimiser

L'équipe hREF
2 mars 2021

Ce n’est pas une nouvelle, les moteurs de recherche utilisent des robots pour analyser vos pages. Ceux-ci en explorent les contenus pour les classer ensuite sur les SERPs. Si la manière dont fonctionnent ces robots reste parfois obscure, ils ne sont pas tout-puissants : ils n’explorent pas toutes les pages de votre site. C’est pourquoi, pour s’assurer d’un bon classement, il s’agit de les « guider » vers vos contenus les plus stratégiques. Nos conseils.

Qu’est-ce que le budget crawl ?

Pour faire simple, le budget crawl, ou budget d’exploration, désigne le nombre limite de pages qu’un robot indexeur prendra en charge lors du passage sur votre site. En effet, face aux milliards de pages à parcourir, les moteurs de recherche ne jouissent pas de moyens illimités : pour se faciliter la tâche, ils doivent économiser les ressources allouées à leurs bots et définir des fréquences de passage.

Pour ce faire, ils vont donc évaluer pour chaque site un « niveau d’attention » nécessaire, ce qui leur permettra de hiérarchiser leurs efforts. Aussi attribuent-ils un budget crawl à chaque site web de façon à explorer efficacement l’intégralité de la toile. La définition de ce budget crawl dépend de deux facteurs : le crawl demand (demande de crawl) et le crawl limit (taux limite de crawl).

Le taux limite de crawl

Le crawl limit répond prioritairement à des limites techniques, imposées par les serveurs. Ce taux fixé par les moteurs vise à définir une quantité maximale de pages à explorer simultanément pour chaque site. Pourquoi ? La réponse est simple : si les robots indexeurs ne se voyaient imposer aucun frein, toutes les pages d’un site web seraient parcourues en même temps avec pour conséquence dommageable de surcharger les serveurs et… de ralentir la navigation des internautes.

© 422737 – Licence Pixabay

Cette limite est notamment influencée par la vitesse de votre serveur (la vitesse de chargement de vos pages) et la nature de l’hébergement (hébergement partagé ou serveur dédié) de votre site.

La demande de crawl

En regard, le crawl demand se focalise sur les caractéristiques propres de votre site. En gros, la demande de crawl s’attache à déterminer si vos pages nécessitent d’être fréquemment (ou non) visitées. Là encore, plusieurs facteurs ont à prendre en compte, notamment :

  • La fréquence de mise à jour de votre site ;
  • La popularité/fiabilité de vos pages, en se basant sur le nombre de requêtes sur lesquelles elles se positionnent ainsi que sur le nombre et la qualité des backlinks qui pointent vers votre site ;
  • La profondeur d’une page ;
  • Et, enfin, la qualité de vos contenus.

Pourquoi est-il important en SEO ?

Vous l’aurez compris, faciliter et diriger le crawl des robots est un enjeu important : économiser les efforts des moteurs, en évitant de gaspiller leur temps d’exploration avec des pages inutiles, pauvres ou rarement mises à jour, impliquera une couverture plus intelligente de votre site et, ainsi, une meilleure indexation de vos contenus. Bref, une amélioration de vos performances SEO.

Bien gérer son budget crawl vous assure que les moteurs de recherche trouvent et « lisent » vos pages les plus pertinentes – notamment celles qui apportent des informations en liens avec les requêtes des internautes – et qu’ils le fassent rapidement (lorsque vous publiez de nouveaux contenus et que vous les mettez à jour, par exemple). Et plus vite ce sera fait, plus vous pourrez bénéficier d’une bonne visibilité sur les moteurs : en effet, les pages récemment explorées sont en général mieux classées dans les résultats naturels.

A l’inverse, si Google, pour ne citer que lui, n’est pas accompagné pour explorer votre site web efficacement, il risque de laisser de côté des parties importantes. Concrètement, si vous ne l’aidez pas à connaitre vos pages stratégiques, celles les plus susceptibles de vous apporter des revenus par exemple, il est probable qu’il ne les indexera pas : vous ne pourrez donc pas attirer des internautes qui font des recherches, autant dire la majorité de vos prospects.

© geralt – Licence Pixabay

Comment optimiser son budget crawl ?

Pour optimiser son budget d’exploration, quelques techniques simples sont disponibles. En voici 5, primordiales à prendre en compte.

1. Optimiser la vitesse de chargement de votre page

Premier problème à adresser : le taux limite de crawl. Si vos pages mettent trop de temps à charger ou qu’elles renvoient trop d’erreurs 504 (délai d’attente expiré), les robots crawleront moins de pages sur votre site.

Pour éviter de se faire zapper par les moteurs, une bonne solution d’hébergement web est donc à privilégier. Pour les sites de e-commerces, comprenant parfois plusieurs milliers de pages, il est ainsi recommandé d’opter pour un serveur dédié, que vous serez le seul à utiliser. Pour les sites de moindre envergure, simples et avec peu de pages, un serveur mutualisé peut évidemment suffire.

Si c’est le cas, il s’agira pour contourner le limit crawl de faciliter le travail des moteurs en optimisant les capacités du serveur. Comment ? En préférant une solution de cache pour réduire le nombre d’éléments à charger, en veillant à compresser le code et les médias (images) et, au besoin, en hébergeant vos vidéos sur YouTube par exemple.

2. Simplifiez votre architecture

Une règle simple est à retenir : plus loin vos pages seront situées de la page d’accueil, moins elles seront référencées. En ce sens, il est recommandé de simplifier aux maximum la structure de votre site, en adoptant une architecture claire, facile d’accès pour les robots indexeurs comme pour les visiteurs.

Aussi, travaillez les « niveaux » de vos pages, en les classant par importance et par type. Par exemple :

  • Au niveau 1, votre page d’accueil ;
  • Au niveau 2, les pages de catégories ;
  • Au niveau 3, enfin, les pages dédiées au contenu ou, par exemple, aux fiches produit ;

Ici, l’objectif est d’accompagner les moteurs de recherche, de les guider afin qu’ils saisissent rapidement quelles pages sont importantes à explorer.

© 377053 – Licence Pixabay

3. Travailler le maillage interne de votre site

Outre les backlinks, qui vous permettent d’obtenir un bon Page Rank, le maillage interne est également fondamental en matière de SEO. La manière dont vous reliez vos pages est un facteur important pour optimiser le budget crawl. En effet, les pages pauvres en liens internes attirent moins l’attention de robots que celles qui en sont particulièrement riches.

Un bon maillage interne facilite la navigation des moteurs (et de vos visiteurs !) sur votre site. Aussi, apportez une attention particulière aux pages les plus importantes : adaptez la structure de votre maillage en vous assurant qu’elles reçoivent beaucoup de liens internes.

4.Orienter l’exploration des robots

Force est de constater que, sur la majorité des sites, de nombreuses pages sont explorées par les robots alors qu’elles n’ont pas beaucoup d’intérêt. Heureusement, ce gâchis de budget crawl peut se corriger aisément. Pour attirer l’attention des moteurs sur les pages essentielles de votre site, un outil existe : la Search Console de Google qui vous permet d’analyser quelles pages sont crawlées mais ne sont pas indexées.

Cette analyse vous permet d’évaluer, dans un premier temps, quelle quantité du budget d’exploration pourrait être consacré à d’autres pages plus stratégiques. Ensuite, pour éviter toute exploration inutile, l’ajout d’un fichier robots.txt aux URL, invitant les robots à ne pas considérer une page, permettra de réorienter le crawl.

5.Mettre régulièrement à jour votre site avec du contenu de qualité

Last but not least, un des leviers importants pour optimiser votre budget crawl, et votre référencement en général, tient aux contenus. Evidemment, on ne parle pas de n’importe quel contenu : ce que vous publiez sur votre site, ou votre blog, doit être de bonne qualité, apporter une information pertinente à vos visiteurs, écrit naturellement et en rapport avec votre secteur d’activité.

Nous ne le répétons jamais assez, un contenu de bonne qualité signifie également qu’il doit être original. Soyez attentif à ne pas publier de contenus dupliqués : les moteurs ont la capacité de les repérer et n’hésiteront pas, s’ils en détectent, à reléguer vos pages.

© GDJ – Licence Pixabay

Par ailleurs, les moteurs apprécient la nouveauté : alimentez régulièrement votre blog ou votre site de contenus « frais ». Les moteurs y seront particulièrement réceptifs, leurs bots crawlant alors plus souvent votre site. L’écriture de contenus originaux peut être chronophage et demande certains efforts : si vous n’avez ni temps ni idées, faire appel à une agence éditoriale web est recommandé.

Comment suivre son budget crawl ?

Au regard des milliards de pages publiées sur internet, les robots ne pourront pas accorder une attention illimitée à votre site. Pour que vos pages stratégiques soient prises en compte, un travail est nécessaire pour faciliter l’indexation des moteurs de recherche. Et assurer un suivi est essentiel pour voir s’il porte ses fruits.

Une fois appliqués les quelques conseils ci-dessus, il s’agira alors de monitorer l’évolution du comportement des robots. Pour ce faire, la Search Console de Google sera votre alliée : l’outil vous présentera notamment l’évolution du volume de pages explorées jour par jour sur les 3 derniers mois.

Ensuite, à vous d’analyser et de comparer quelles sont les nouvelles pages crawlées (et celles qui ne le sont pas) en vous penchant sur les logs de vos serveurs. En effet, les logs recensent toutes les requêtes faites à votre serveur, vous permettant de connaitre les moteurs qui visitent votre site et, plus précisément, les pages qu’ils ont explorées. Fastidieux a priori, ce travail d’analyse est la clé pour optimiser son budget crawl : au besoin n’hésitez pas à utiliser les services d’une agence SEO qui saura vous conseiller.

 

Visuel d’entête : © designwebjae – Licence Pixabay

Partager cet article :

Dans la même catégorie

Abonnez-vous à notre newsletter

Demander un devis
Haut de page