Robots.txt

A retenir

Le robots.txt indique aux robots d'exploration les zones du site à ne pas crawler
Il se place obligatoirement à la racine du site (exemple.fr/robots.txt)
Les directives sont des recommandations, pas des obligations : certains bots les ignorent
Il ne protège pas le contenu et n'empêche pas l'indexation si des liens pointent vers les pages bloquées
Une mauvaise configuration peut bloquer l'accès à tout votre site

Le fichier robots.txt est un fichier texte qui respecte le protocole d’exclusion des robots (Robots Exclusion Protocol). Placé à la racine d’un site web, il communique aux robots d’exploration comme Googlebot les URLs qu’ils peuvent ou ne peuvent pas explorer. C’est le premier fichier que les crawlers consultent avant de parcourir un site.

Comment fonctionne le robots.txt

Quand un robot visite votre site, il commence par chercher le fichier robots.txt à l’adresse https://votresite.fr/robots.txt. Selon ce qu’il y trouve :

Le fichier existe et contient des directives : le robot les applique (ou non, selon sa conception)
Le fichier existe mais est vide : le robot considère qu’il peut tout explorer
Le fichier n’existe pas (erreur 404) : le robot explore tout le site
Le fichier renvoie une erreur serveur (5xx) : le robot peut suspendre le crawl par précaution

Le robots.txt fonctionne sur un principe de confiance. Les robots « bien élevés » comme Googlebot, Bingbot ou les crawlers SEO respectent ces directives. Les robots malveillants ou les scrapers les ignorent généralement.

Le robots.txt ne bloque pas l’accès aux pages. Il demande poliment aux robots de ne pas les visiter. Pour véritablement empêcher l’accès, utilisez une authentification ou des règles serveur (htaccess, pare-feu).

Syntaxe du fichier robots.txt

Le robots.txt utilise une syntaxe simple composée de directives :

User-agent

Identifie le robot concerné par les règles qui suivent. L’astérisque (*) cible tous les robots.

# Cibler tous les robots
User-agent: *

# Cibler uniquement Googlebot
User-agent: Googlebot

# Cibler Bingbot
User-agent: Bingbot

Disallow

Interdit l’exploration d’un chemin spécifique. Le chemin commence toujours par un slash (/).

# Bloquer un dossier entier
Disallow: /admin/

# Bloquer une page spécifique
Disallow: /page-confidentielle.html

# Bloquer les URLs contenant un paramètre
Disallow: /*?sort=

# Bloquer tout le site
Disallow: /

Allow

Autorise explicitement l’exploration d’un chemin, utile pour créer des exceptions à une règle Disallow.

# Bloquer /admin/ sauf /admin/public/
User-agent: *
Disallow: /admin/
Allow: /admin/public/

Sitemap

Indique l’emplacement du sitemap XML. Cette directive peut être placée n’importe où dans le fichier et s’applique à tous les robots.

Sitemap: https://www.exemple.fr/sitemap.xml

Crawl-delay

Demande au robot d’attendre un certain nombre de secondes entre chaque requête. Googlebot ignore cette directive (il gère lui-même sa fréquence), mais Bingbot et d’autres la respectent.

User-agent: Bingbot
Crawl-delay: 10

Exemples de fichiers robots.txt

Autoriser tout (fichier minimal)

User-agent: *
Disallow:

Sitemap: https://www.exemple.fr/sitemap.xml

Configuration type pour WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: /*?s=
Disallow: /*?p=
Disallow: /tag/*/page/

Sitemap: https://www.exemple.fr/sitemap_index.xml

Configuration type pour e-commerce

User-agent: *
Disallow: /panier/
Disallow: /compte/
Disallow: /commande/
Disallow: /recherche/
Disallow: /*?filtre=
Disallow: /*?tri=
Disallow: /*?page=
Disallow: /comparaison/
Disallow: /liste-envies/

Sitemap: https://www.exemple.fr/sitemap.xml

Bloquer des robots spécifiques

# Bloquer les scrapers connus
User-agent: AhrefsBot
Disallow: /

User-agent: SemrushBot
Disallow: /

User-agent: MJ12bot
Disallow: /

# Autoriser les moteurs de recherche
User-agent: Googlebot
Disallow:

User-agent: Bingbot
Disallow:

Erreurs courantes à éviter

Le robots.txt est sensible aux erreurs de configuration qui peuvent avoir des conséquences graves sur votre référencement :

Bloquer accidentellement tout le site

# ERREUR : bloque tout le site
User-agent: *
Disallow: /

Cette configuration empêche tous les robots d’explorer votre site. Vérifiez toujours votre fichier après modification.

Bloquer les ressources CSS et JS

# ERREUR : empêche Google de rendre vos pages
Disallow: /wp-content/themes/
Disallow: /wp-content/plugins/

Googlebot a besoin d’accéder aux fichiers CSS et JavaScript pour comprendre comment vos pages s’affichent. Bloquer ces ressources peut nuire à votre SEO, notamment pour l’évaluation mobile.

Confondre blocage de crawl et désindexation

Une page bloquée par robots.txt peut quand même être indexée si des liens pointent vers elle. Google affichera alors dans ses résultats : « Aucune information disponible pour cette page ». Pour désindexer une page, utilisez la balise noindex, pas le robots.txt.

Utiliser le robots.txt pour cacher du contenu sensible

Le robots.txt est un fichier public. Tout le monde peut le consulter et voir exactement quelles URLs vous essayez de « cacher ». N’y mettez jamais de chemins vers des zones réellement confidentielles.

Oublier le slash final

# Bloque uniquement le fichier "admin"
Disallow: /admin

# Bloque le dossier admin et tout son contenu
Disallow: /admin/

La présence ou l’absence du slash final change complètement le comportement de la règle.

Directive	URLs bloquées	URLs autorisées
`Disallow: /admin`	/admin, /admin/, /admin/page.html, /admin-panel/	/administrator/
`Disallow: /admin/`	/admin/, /admin/page.html	/admin, /admin-panel/
`Disallow: /*.pdf$`	/document.pdf, /docs/fichier.pdf	/pdf-info/, /document.pdf.html

Tester son fichier robots.txt

Avant de mettre en ligne un robots.txt modifié, testez-le pour éviter les erreurs :

Google Search Console

L’outil d’inspection d’URL indique si une page est bloquée par le robots.txt. Pour un test plus complet, utilisez l’ancien testeur de robots.txt encore accessible à search.google.com/search-console/robots-testing-tool.

Outils tiers

Des validateurs en ligne comme Technical SEO (technicalseo.com/tools/robots-txt/) analysent votre fichier et signalent les erreurs de syntaxe.

Crawl de test

Utilisez Screaming Frog ou un crawler similaire pour vérifier que les bonnes URLs sont crawlées et que les zones bloquées le sont vraiment.

Robots.txt et SEO : bonnes pratiques

Pour optimiser votre crawl budget efficacement :

Bloquez les pages sans valeur SEO : résultats de recherche interne, pages de filtres, espaces membres, paniers
Ne bloquez pas les pages que vous voulez indexer : même si elles sont en noindex, laissez Googlebot y accéder pour lire la directive
Laissez l’accès aux ressources statiques : CSS, JS, images nécessaires au rendu
Déclarez votre sitemap : ajoutez la directive Sitemap en fin de fichier
Gardez le fichier simple : des règles trop complexes augmentent le risque d’erreur
Versionnez vos modifications : conservez un historique des changements pour pouvoir revenir en arrière

Rappelez-vous que le robots.txt influence le crawl, pas l’indexation. Pour contrôler l’indexation, combinez-le avec les balises meta robots (noindex, nofollow) et les en-têtes HTTP X-Robots-Tag.

Questions frequentes

Le robots.txt empêche-t-il l'indexation d'une page ?

Non. Si des liens externes pointent vers une page bloquée par robots.txt, Google peut l'indexer sans la crawler. Elle apparaîtra dans les résultats avec le message "Aucune information disponible pour cette page". Pour empêcher l'indexation, utilisez une balise noindex sur la page elle-même.

Où placer le fichier robots.txt ?

Le fichier doit être placé exactement à la racine de votre domaine, accessible à l'URL https://votresite.fr/robots.txt. Un fichier placé dans un sous-dossier ne sera pas reconnu par les robots.

Que se passe-t-il si je n'ai pas de fichier robots.txt ?

Les robots considèrent qu'ils peuvent explorer tout le site. L'absence de robots.txt n'est pas une erreur. Pour les petits sites sans zones à bloquer, c'est parfaitement acceptable. Vous pouvez aussi créer un fichier minimal avec uniquement la directive Sitemap.

Retour au glossaire

Un projet SEO en tete ?