Le fichier robots.txt est un fichier texte qui respecte le protocole d’exclusion des robots (Robots Exclusion Protocol). Placé à la racine d’un site web, il communique aux robots d’exploration comme Googlebot les URLs qu’ils peuvent ou ne peuvent pas explorer. C’est le premier fichier que les crawlers consultent avant de parcourir un site.
Comment fonctionne le robots.txt
Quand un robot visite votre site, il commence par chercher le fichier robots.txt à l’adresse https://votresite.fr/robots.txt. Selon ce qu’il y trouve :
- Le fichier existe et contient des directives : le robot les applique (ou non, selon sa conception)
- Le fichier existe mais est vide : le robot considère qu’il peut tout explorer
- Le fichier n’existe pas (erreur 404) : le robot explore tout le site
- Le fichier renvoie une erreur serveur (5xx) : le robot peut suspendre le crawl par précaution
Le robots.txt fonctionne sur un principe de confiance. Les robots « bien élevés » comme Googlebot, Bingbot ou les crawlers SEO respectent ces directives. Les robots malveillants ou les scrapers les ignorent généralement.
Le robots.txt ne bloque pas l’accès aux pages. Il demande poliment aux robots de ne pas les visiter. Pour véritablement empêcher l’accès, utilisez une authentification ou des règles serveur (htaccess, pare-feu).
Syntaxe du fichier robots.txt
Le robots.txt utilise une syntaxe simple composée de directives :
User-agent
Identifie le robot concerné par les règles qui suivent. L’astérisque (*) cible tous les robots.
# Cibler tous les robots
User-agent: *
# Cibler uniquement Googlebot
User-agent: Googlebot
# Cibler Bingbot
User-agent: Bingbot
Disallow
Interdit l’exploration d’un chemin spécifique. Le chemin commence toujours par un slash (/).
# Bloquer un dossier entier
Disallow: /admin/
# Bloquer une page spécifique
Disallow: /page-confidentielle.html
# Bloquer les URLs contenant un paramètre
Disallow: /*?sort=
# Bloquer tout le site
Disallow: /
Allow
Autorise explicitement l’exploration d’un chemin, utile pour créer des exceptions à une règle Disallow.
# Bloquer /admin/ sauf /admin/public/
User-agent: *
Disallow: /admin/
Allow: /admin/public/
Sitemap
Indique l’emplacement du sitemap XML. Cette directive peut être placée n’importe où dans le fichier et s’applique à tous les robots.
Sitemap: https://www.exemple.fr/sitemap.xml
Crawl-delay
Demande au robot d’attendre un certain nombre de secondes entre chaque requête. Googlebot ignore cette directive (il gère lui-même sa fréquence), mais Bingbot et d’autres la respectent.
User-agent: Bingbot
Crawl-delay: 10
Exemples de fichiers robots.txt
Autoriser tout (fichier minimal)
User-agent: *
Disallow:
Sitemap: https://www.exemple.fr/sitemap.xml
Configuration type pour WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /*?s=
Disallow: /*?p=
Disallow: /tag/*/page/
Sitemap: https://www.exemple.fr/sitemap_index.xml
Configuration type pour e-commerce
User-agent: *
Disallow: /panier/
Disallow: /compte/
Disallow: /commande/
Disallow: /recherche/
Disallow: /*?filtre=
Disallow: /*?tri=
Disallow: /*?page=
Disallow: /comparaison/
Disallow: /liste-envies/
Sitemap: https://www.exemple.fr/sitemap.xml
Bloquer des robots spécifiques
# Bloquer les scrapers connus
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
# Autoriser les moteurs de recherche
User-agent: Googlebot
Disallow:
User-agent: Bingbot
Disallow:
Erreurs courantes à éviter
Le robots.txt est sensible aux erreurs de configuration qui peuvent avoir des conséquences graves sur votre référencement :
Bloquer accidentellement tout le site
# ERREUR : bloque tout le site
User-agent: *
Disallow: /
Cette configuration empêche tous les robots d’explorer votre site. Vérifiez toujours votre fichier après modification.
Bloquer les ressources CSS et JS
# ERREUR : empêche Google de rendre vos pages
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/
Googlebot a besoin d’accéder aux fichiers CSS et JavaScript pour comprendre comment vos pages s’affichent. Bloquer ces ressources peut nuire à votre SEO, notamment pour l’évaluation mobile.
Confondre blocage de crawl et désindexation
Une page bloquée par robots.txt peut quand même être indexée si des liens pointent vers elle. Google affichera alors dans ses résultats : « Aucune information disponible pour cette page ». Pour désindexer une page, utilisez la balise noindex, pas le robots.txt.
Utiliser le robots.txt pour cacher du contenu sensible
Le robots.txt est un fichier public. Tout le monde peut le consulter et voir exactement quelles URLs vous essayez de « cacher ». N’y mettez jamais de chemins vers des zones réellement confidentielles.
Oublier le slash final
# Bloque uniquement le fichier "admin"
Disallow: /admin
# Bloque le dossier admin et tout son contenu
Disallow: /admin/
La présence ou l’absence du slash final change complètement le comportement de la règle.
| Directive | URLs bloquées | URLs autorisées |
|---|
Disallow: /admin | /admin, /admin/, /admin/page.html, /admin-panel/ | /administrator/ |
Disallow: /admin/ | /admin/, /admin/page.html | /admin, /admin-panel/ |
Disallow: /*.pdf$ | /document.pdf, /docs/fichier.pdf | /pdf-info/, /document.pdf.html |
Tester son fichier robots.txt
Avant de mettre en ligne un robots.txt modifié, testez-le pour éviter les erreurs :
Google Search Console
L’outil d’inspection d’URL indique si une page est bloquée par le robots.txt. Pour un test plus complet, utilisez l’ancien testeur de robots.txt encore accessible à search.google.com/search-console/robots-testing-tool.
Outils tiers
Des validateurs en ligne comme Technical SEO (technicalseo.com/tools/robots-txt/) analysent votre fichier et signalent les erreurs de syntaxe.
Crawl de test
Utilisez Screaming Frog ou un crawler similaire pour vérifier que les bonnes URLs sont crawlées et que les zones bloquées le sont vraiment.
Robots.txt et SEO : bonnes pratiques
Pour optimiser votre crawl budget efficacement :
- Bloquez les pages sans valeur SEO : résultats de recherche interne, pages de filtres, espaces membres, paniers
- Ne bloquez pas les pages que vous voulez indexer : même si elles sont en noindex, laissez Googlebot y accéder pour lire la directive
- Laissez l’accès aux ressources statiques : CSS, JS, images nécessaires au rendu
- Déclarez votre sitemap : ajoutez la directive Sitemap en fin de fichier
- Gardez le fichier simple : des règles trop complexes augmentent le risque d’erreur
- Versionnez vos modifications : conservez un historique des changements pour pouvoir revenir en arrière
Rappelez-vous que le robots.txt influence le crawl, pas l’indexation. Pour contrôler l’indexation, combinez-le avec les balises meta robots (noindex, nofollow) et les en-têtes HTTP X-Robots-Tag.