Le crawl budget représente le nombre de pages que Googlebot explore sur votre site pendant une période donnée. Ce concept combine deux facteurs : la capacité technique de votre serveur à répondre aux requêtes et l’intérêt que Google porte à votre contenu. Comprendre et optimiser son crawl budget devient crucial dès que votre site atteint une taille significative.
Les deux composantes du crawl budget
Google définit le crawl budget comme la combinaison de deux éléments distincts :
La limite de capacité de crawl (Crawl Capacity Limit)
C’est le nombre maximum de connexions simultanées que Googlebot peut utiliser pour explorer votre site sans le surcharger. Cette limite dépend de :
- La vitesse de réponse de votre serveur
- Les erreurs serveur rencontrées (codes 5xx)
- Les limites définies dans la Google Search Console
Si votre serveur répond rapidement et sans erreur, Googlebot augmente sa fréquence de crawl. À l’inverse, un serveur lent ou instable voit sa capacité de crawl réduite pour éviter de dégrader l’expérience utilisateur.
La demande de crawl (Crawl Demand)
C’est le niveau d’intérêt que Google porte à vos URLs. Deux facteurs principaux l’influencent :
- La popularité : les pages avec beaucoup de backlinks et de trafic sont crawlées plus souvent
- La fraîcheur : les pages fréquemment mises à jour attirent davantage Googlebot
Un site d’actualités publiant plusieurs articles par jour aura une demande de crawl élevée. Un site vitrine statique aura une demande faible, car Google sait que le contenu change rarement.
| Facteur | Impact positif | Impact négatif |
|---|
| Vitesse serveur | Réponse < 200ms | Réponse > 2s |
| Erreurs serveur | Aucune erreur 5xx | Erreurs fréquentes |
| Popularité | Nombreux backlinks | Aucun lien externe |
| Fraîcheur | Mises à jour régulières | Contenu statique |
| Taille du site | Structure claire | Millions de pages de faible qualité |
Qui doit se soucier du crawl budget
Google est clair sur ce point : le crawl budget n’est pas un problème pour la majorité des sites. Si votre site compte moins de quelques milliers de pages et que vous publiez occasionnellement, Googlebot explore probablement tout votre contenu sans difficulté.
Le crawl budget devient un enjeu si votre site :
- Dépasse 10 000 pages indexables
- Génère des URLs dynamiquement (filtres, paramètres, recherche interne)
- Contient beaucoup de contenu dupliqué ou de faible qualité
- Publie du contenu à haute fréquence (actualités, e-commerce avec stock variable)
- A récemment migré ou subi une refonte majeure
Pour un site e-commerce de 50 000 produits avec des pages de filtres générant des millions de combinaisons d’URLs, l’optimisation du crawl budget est critique. Pour un blog de 200 articles, c’est rarement une priorité.
Comment diagnostiquer son crawl budget
Plusieurs sources de données permettent d’analyser l’activité de crawl sur votre site :
Google Search Console
Dans « Paramètres » puis « Statistiques sur l’exploration », vous accédez aux données de crawl des 90 derniers jours :
- Nombre total de requêtes de crawl
- Taille totale des téléchargements
- Temps de réponse moyen
- Répartition par type de fichier (HTML, images, CSS, JS)
- Répartition par type de réponse (200, 301, 404, etc.)
Une baisse soudaine du crawl peut indiquer un problème serveur. Une proportion élevée de réponses en erreur 404 ou 403 signale un gaspillage de crawl budget.
Analyse des logs serveur
Les logs serveur offrent la vision la plus complète et précise de l’activité de Googlebot. En filtrant les requêtes par user-agent, vous identifiez exactement quelles URLs sont crawlées, à quelle fréquence et avec quel résultat.
Des outils comme Screaming Frog Log Analyzer ou OnCrawl facilitent cette analyse en visualisant les données de crawl et en croisant avec la structure de votre site.
Les facteurs qui gaspillent le crawl budget
Certaines configurations techniques consomment inutilement les ressources de Googlebot :
Pages de faible valeur
- Pages de résultats de recherche interne
- Pages de filtres et de tri (e-commerce)
- Pages de pagination infinies
- Pages de tags et archives peu utiles
- Versions imprimables des articles
Contenu dupliqué
- URLs avec paramètres de tracking (utm_source, etc.)
- Versions HTTP et HTTPS accessibles
- URLs avec et sans www
- URLs avec et sans slash final
- Versions AMP non canonicalisées
Erreurs et redirections
- Chaînes de redirections 301
- Pages en erreur 404 ou 403 liées en interne
- Erreurs serveur 5xx récurrentes
- Soft 404 non détectées
Pages orphelines
Les pages sans aucun lien interne ne sont généralement pas crawlées. Si elles apparaissent dans vos logs, c’est que Googlebot les a découvertes via un sitemap ou un lien externe, mais il y consacre moins de ressources qu’aux pages bien maillées.
Comment optimiser son crawl budget
L’optimisation du crawl budget vise à concentrer les visites de Googlebot sur vos pages importantes.
Améliorer la performance serveur
Un serveur rapide encourage Googlebot à augmenter sa fréquence de crawl. Visez un temps de réponse serveur (TTFB) inférieur à 200 ms. Investissez dans un hébergement de qualité, activez la mise en cache et utilisez un CDN si votre audience est géographiquement dispersée.
Bloquer les URLs inutiles via robots.txt
Utilisez le fichier robots.txt pour interdire le crawl des sections sans valeur SEO :
User-agent: *
Disallow: /recherche/
Disallow: /filtres/
Disallow: /*?sort=
Disallow: /*?page=
Disallow: /panier/
Disallow: /compte/
Utiliser les balises meta robots
Pour les pages qui doivent rester accessibles aux utilisateurs mais pas indexées, utilisez la balise noindex, follow. Googlebot crawlera la page (consommant du budget) mais suivra les liens qu’elle contient.
Optimiser le maillage interne
Un maillage interne efficace guide Googlebot vers vos pages prioritaires. Les pages proches de la page d’accueil (peu de clics) sont crawlées plus souvent que les pages profondes. Structurez votre site pour que les contenus importants soient accessibles en 3 clics maximum.
Soumettre un sitemap XML à jour
Le sitemap XML aide Googlebot à découvrir vos pages importantes. Incluez uniquement les URLs indexables et tenez-le à jour automatiquement lors des publications et suppressions.
Gérer les paramètres d’URL
Pour les sites e-commerce, utilisez la balise canonical pour indiquer la version principale des pages avec paramètres. Google consolidera les signaux vers cette URL plutôt que de crawler chaque variante.
Corriger les erreurs de crawl
Surveillez régulièrement la Search Console et corrigez les erreurs signalées. Chaque requête aboutissant à une erreur est une opportunité manquée de faire crawler une page utile.