Crawl Budget

A retenir

Le crawl budget combine la capacité de crawl (vitesse serveur) et la demande de crawl (intérêt de Google)
Il détermine combien de pages Googlebot explore sur votre site quotidiennement
Les petits sites (moins de 10 000 pages) n'ont généralement pas à s'en soucier
Un crawl budget gaspillé retarde l'indexation des nouvelles pages
L'optimisation passe par la vitesse serveur, le maillage interne et le blocage des pages inutiles

Le crawl budget représente le nombre de pages que Googlebot explore sur votre site pendant une période donnée. Ce concept combine deux facteurs : la capacité technique de votre serveur à répondre aux requêtes et l’intérêt que Google porte à votre contenu. Comprendre et optimiser son crawl budget devient crucial dès que votre site atteint une taille significative.

Les deux composantes du crawl budget

Google définit le crawl budget comme la combinaison de deux éléments distincts :

La limite de capacité de crawl (Crawl Capacity Limit)

C’est le nombre maximum de connexions simultanées que Googlebot peut utiliser pour explorer votre site sans le surcharger. Cette limite dépend de :

La vitesse de réponse de votre serveur
Les erreurs serveur rencontrées (codes 5xx)
Les limites définies dans la Google Search Console

Si votre serveur répond rapidement et sans erreur, Googlebot augmente sa fréquence de crawl. À l’inverse, un serveur lent ou instable voit sa capacité de crawl réduite pour éviter de dégrader l’expérience utilisateur.

La demande de crawl (Crawl Demand)

C’est le niveau d’intérêt que Google porte à vos URLs. Deux facteurs principaux l’influencent :

La popularité : les pages avec beaucoup de backlinks et de trafic sont crawlées plus souvent
La fraîcheur : les pages fréquemment mises à jour attirent davantage Googlebot

Un site d’actualités publiant plusieurs articles par jour aura une demande de crawl élevée. Un site vitrine statique aura une demande faible, car Google sait que le contenu change rarement.

Facteur	Impact positif	Impact négatif
Vitesse serveur	Réponse < 200ms	Réponse > 2s
Erreurs serveur	Aucune erreur 5xx	Erreurs fréquentes
Popularité	Nombreux backlinks	Aucun lien externe
Fraîcheur	Mises à jour régulières	Contenu statique
Taille du site	Structure claire	Millions de pages de faible qualité

Qui doit se soucier du crawl budget

Google est clair sur ce point : le crawl budget n’est pas un problème pour la majorité des sites. Si votre site compte moins de quelques milliers de pages et que vous publiez occasionnellement, Googlebot explore probablement tout votre contenu sans difficulté.

Le crawl budget devient un enjeu si votre site :

Dépasse 10 000 pages indexables
Génère des URLs dynamiquement (filtres, paramètres, recherche interne)
Contient beaucoup de contenu dupliqué ou de faible qualité
Publie du contenu à haute fréquence (actualités, e-commerce avec stock variable)
A récemment migré ou subi une refonte majeure

Pour un site e-commerce de 50 000 produits avec des pages de filtres générant des millions de combinaisons d’URLs, l’optimisation du crawl budget est critique. Pour un blog de 200 articles, c’est rarement une priorité.

Comment diagnostiquer son crawl budget

Plusieurs sources de données permettent d’analyser l’activité de crawl sur votre site :

Google Search Console

Dans « Paramètres » puis « Statistiques sur l’exploration », vous accédez aux données de crawl des 90 derniers jours :

Nombre total de requêtes de crawl
Taille totale des téléchargements
Temps de réponse moyen
Répartition par type de fichier (HTML, images, CSS, JS)
Répartition par type de réponse (200, 301, 404, etc.)

Une baisse soudaine du crawl peut indiquer un problème serveur. Une proportion élevée de réponses en erreur 404 ou 403 signale un gaspillage de crawl budget.

Analyse des logs serveur

Les logs serveur offrent la vision la plus complète et précise de l’activité de Googlebot. En filtrant les requêtes par user-agent, vous identifiez exactement quelles URLs sont crawlées, à quelle fréquence et avec quel résultat.

Des outils comme Screaming Frog Log Analyzer ou OnCrawl facilitent cette analyse en visualisant les données de crawl et en croisant avec la structure de votre site.

Les facteurs qui gaspillent le crawl budget

Certaines configurations techniques consomment inutilement les ressources de Googlebot :

Pages de faible valeur

Pages de résultats de recherche interne
Pages de filtres et de tri (e-commerce)
Pages de pagination infinies
Pages de tags et archives peu utiles
Versions imprimables des articles

Contenu dupliqué

URLs avec paramètres de tracking (utm_source, etc.)
Versions HTTP et HTTPS accessibles
URLs avec et sans www
URLs avec et sans slash final
Versions AMP non canonicalisées

Erreurs et redirections

Chaînes de redirections 301
Pages en erreur 404 ou 403 liées en interne
Erreurs serveur 5xx récurrentes
Soft 404 non détectées

Pages orphelines

Les pages sans aucun lien interne ne sont généralement pas crawlées. Si elles apparaissent dans vos logs, c’est que Googlebot les a découvertes via un sitemap ou un lien externe, mais il y consacre moins de ressources qu’aux pages bien maillées.

Comment optimiser son crawl budget

L’optimisation du crawl budget vise à concentrer les visites de Googlebot sur vos pages importantes.

Améliorer la performance serveur

Un serveur rapide encourage Googlebot à augmenter sa fréquence de crawl. Visez un temps de réponse serveur (TTFB) inférieur à 200 ms. Investissez dans un hébergement de qualité, activez la mise en cache et utilisez un CDN si votre audience est géographiquement dispersée.

Bloquer les URLs inutiles via robots.txt

Utilisez le fichier robots.txt pour interdire le crawl des sections sans valeur SEO :

User-agent: *
Disallow: /recherche/
Disallow: /filtres/
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /panier/
Disallow: /compte/

Utiliser les balises meta robots

Pour les pages qui doivent rester accessibles aux utilisateurs mais pas indexées, utilisez la balise noindex, follow. Googlebot crawlera la page (consommant du budget) mais suivra les liens qu’elle contient.

Optimiser le maillage interne

Un maillage interne efficace guide Googlebot vers vos pages prioritaires. Les pages proches de la page d’accueil (peu de clics) sont crawlées plus souvent que les pages profondes. Structurez votre site pour que les contenus importants soient accessibles en 3 clics maximum.

Soumettre un sitemap XML à jour

Le sitemap XML aide Googlebot à découvrir vos pages importantes. Incluez uniquement les URLs indexables et tenez-le à jour automatiquement lors des publications et suppressions.

Gérer les paramètres d’URL

Pour les sites e-commerce, utilisez la balise canonical pour indiquer la version principale des pages avec paramètres. Google consolidera les signaux vers cette URL plutôt que de crawler chaque variante.

Corriger les erreurs de crawl

Surveillez régulièrement la Search Console et corrigez les erreurs signalées. Chaque requête aboutissant à une erreur est une opportunité manquée de faire crawler une page utile.

Questions frequentes

Comment savoir si mon site a un problème de crawl budget ?

Consultez les statistiques d'exploration dans la Google Search Console. Si vos nouvelles pages mettent des semaines à être indexées, si le nombre de pages crawlées quotidiennement est très inférieur à votre nombre de pages, ou si les logs montrent que Googlebot explore surtout des pages inutiles, vous avez probablement un problème de crawl budget.

Puis-je augmenter mon crawl budget ?

Pas directement. Google ajuste automatiquement le crawl budget en fonction de la qualité et de la popularité de votre site. Vous pouvez influencer positivement ce budget en améliorant la vitesse de votre serveur, en publiant du contenu de qualité régulièrement et en obtenant des backlinks. Évitez de réduire le taux de crawl dans la Search Console sauf en cas de surcharge serveur avérée.

Le sitemap XML augmente-t-il le crawl budget ?

Non, le sitemap n'augmente pas votre crawl budget. Il aide simplement Googlebot à découvrir vos URLs plus efficacement. Soumettre des milliers de pages via sitemap ne garantit pas qu'elles seront toutes crawlées si votre budget est limité.

Retour au glossaire

Un projet SEO en tete ?