Le sitemap XML est un fichier au format XML qui liste les URLs d’un site web que vous souhaitez voir explorées par les moteurs de recherche. Il sert de carte pour Googlebot et autres crawlers, leur indiquant quelles pages existent et méritent d’être visitées. C’est un outil de communication direct entre votre site et les moteurs de recherche.
À quoi sert un sitemap XML
Le sitemap XML remplit plusieurs fonctions essentielles :
Faciliter la découverte des pages
Sur un site bien structuré, Googlebot découvre les pages en suivant les liens internes. Mais certaines pages peuvent être difficiles à atteindre : pages profondes, contenus récents pas encore maillés, pages orphelines. Le sitemap offre un accès direct à ces URLs.
Accélérer l’indexation des nouveaux contenus
Quand vous publiez un nouvel article ou produit, le sitemap mis à jour signale immédiatement son existence aux moteurs. Combiné à un ping automatique, cela peut réduire le délai d’indexation de plusieurs jours à quelques heures.
Fournir des métadonnées utiles
Le sitemap peut inclure des informations supplémentaires : date de dernière modification, fréquence de mise à jour, priorité relative. Ces données aident les crawlers à prioriser leur travail.
Diagnostiquer les problèmes d’indexation
En comparant le nombre d’URLs soumises dans le sitemap au nombre d’URLs indexées (visible dans la Google Search Console), vous identifiez rapidement les écarts à investiguer.
Un sitemap n’est pas une garantie d’indexation. Il facilite la découverte des URLs, mais Google décide seul si une page mérite d’être indexée selon sa qualité et sa pertinence.
Structure d’un sitemap XML
Le sitemap XML respecte un format standardisé défini par sitemaps.org :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.exemple.fr/</loc>
<lastmod>2024-01-15</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://www.exemple.fr/produits/</loc>
<lastmod>2024-01-14</lastmod>
<changefreq>daily</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Balises obligatoires
<urlset> : conteneur principal avec déclaration du namespace
<url> : conteneur pour chaque URL
<loc> : URL complète de la page (obligatoire)
Balises optionnelles
| Balise | Description | Valeurs possibles |
|---|
<lastmod> | Date de dernière modification | Format W3C (YYYY-MM-DD) |
<changefreq> | Fréquence de mise à jour estimée | always, hourly, daily, weekly, monthly, yearly, never |
<priority> | Priorité relative par rapport aux autres pages du site | 0.0 à 1.0 (défaut : 0.5) |
En pratique, Google ignore largement changefreq et priority. La balise lastmod est utile uniquement si elle reflète une vraie modification du contenu, pas une mise à jour automatique.
Types de sitemaps
Selon la nature de votre contenu, différents types de sitemaps existent :
Sitemap standard (pages)
Liste les pages HTML classiques de votre site. C’est le type le plus courant.
Sitemap images
Référence les images importantes pour améliorer leur découverte par Google Images :
<url>
<loc>https://www.exemple.fr/article/</loc>
<image:image>
<image:loc>https://www.exemple.fr/images/photo.jpg</image:loc>
<image:title>Description de l'image</image:title>
</image:image>
</url>
Sitemap vidéos
Permet d’indexer vos vidéos dans Google Video avec des métadonnées enrichies (durée, miniature, description).
Sitemap actualités
Réservé aux sites inscrits dans Google News, avec des balises spécifiques (titre, date de publication, nom de la publication).
Sitemap index
Quand un site dépasse 50 000 URLs ou 50 Mo par fichier, il faut découper le sitemap en plusieurs fichiers et créer un fichier index qui les référence tous :
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://www.exemple.fr/sitemap-articles.xml</loc>
<lastmod>2024-01-15</lastmod>
</sitemap>
<sitemap>
<loc>https://www.exemple.fr/sitemap-produits.xml</loc>
<lastmod>2024-01-14</lastmod>
</sitemap>
</sitemapindex>
Comment créer un sitemap XML
Plusieurs méthodes permettent de générer un sitemap :
Plugins CMS
La méthode la plus simple pour les sites sur CMS :
- WordPress : Yoast SEO, Rank Math, XML Sitemaps
- PrestaShop : module Google Sitemap natif
- Shopify : sitemap généré automatiquement
- Magento : fonctionnalité native dans le backoffice
Ces outils génèrent et mettent à jour automatiquement le sitemap à chaque publication.
Générateurs en ligne
Pour les sites statiques ou sans CMS, des outils comme XML-Sitemaps.com ou Screaming Frog peuvent crawler votre site et générer le fichier.
Génération programmatique
Pour les sites dynamiques avec des milliers de pages, générez le sitemap via votre code backend en interrogeant votre base de données.
Comment soumettre son sitemap
Une fois créé, déclarez votre sitemap aux moteurs de recherche :
Google Search Console
- Connectez-vous à la Search Console
- Sélectionnez votre propriété
- Accédez à « Sitemaps » dans le menu
- Entrez l’URL de votre sitemap
- Cliquez sur « Envoyer »
Google affichera ensuite le statut de traitement et le nombre d’URLs découvertes versus indexées.
Fichier robots.txt
Déclarez le sitemap dans votre robots.txt pour que tous les robots le découvrent automatiquement :
Sitemap: https://www.exemple.fr/sitemap.xml
Bing Webmaster Tools
Même processus que pour Google, dans l’interface Bing Webmaster Tools.
Bonnes pratiques pour le sitemap XML
Un sitemap efficace respecte ces règles :
N’incluez que les URLs indexables
- Pages renvoyant un code HTTP 200
- Pages sans balise
noindex
- Pages non bloquées par le robots.txt
- URLs canoniques (pas les variantes)
Inclure des URLs en erreur 404, des redirections ou des pages noindex pollue votre sitemap et envoie un signal de mauvaise qualité.
Gardez le sitemap à jour
Un sitemap obsolète perd son utilité. Configurez une génération automatique à chaque publication/suppression de contenu. La balise lastmod doit refléter de vraies modifications, pas des mises à jour cosmétiques.
Respectez les limites techniques
- Maximum 50 000 URLs par fichier
- Maximum 50 Mo par fichier (non compressé)
- Au-delà, utilisez un sitemap index
Segmentez par type de contenu
Pour les gros sites, créez des sitemaps séparés par section (articles, produits, catégories). Cela facilite le diagnostic : si un sitemap a un taux d’indexation faible, vous identifiez immédiatement le type de contenu problématique.
Utilisez des URLs absolues
Chaque <loc> doit contenir l’URL complète avec protocole (https://) et domaine, pas des chemins relatifs.
Compressez si nécessaire
Google accepte les sitemaps compressés en gzip (.xml.gz). Utile pour les très gros fichiers, cela réduit la bande passante.
Erreurs courantes à éviter
- URLs non canoniques : inclure les versions avec et sans www, http et https
- Pages redirigées : le sitemap doit contenir les URLs finales, pas les sources de redirections
- Sitemap jamais mis à jour : des URLs supprimées restent listées pendant des mois
- Lastmod fictif : mettre la date du jour sur toutes les pages détruit la crédibilité de cette balise
- Sitemap non accessible : vérifiez que l’URL du sitemap renvoie bien un code 200