Sitemaps
Sitemaps est un protocole permettant à un webmestre d'informer les moteurs de recherche des adresses d'un site web disponibles pour l'indexation automatique. Proposé initialement par Google, cette technologie a été adoptée par Live Search (désormais Bing), Yahoo, Ask et Exalead. Elle est également utilisée par Yandex[1] et Baidu[2]. Chez Bing, la soumission du fichier sitemap.xml ou sitemap.xml.gz, s'il est compressé, peut se faire au travers d'une simple requête http[3].
Il s'agit d'un plan de site (« sitemap ») compréhensible par les robots d'indexation, rédigé sous forme d'un fichier XML ou texte qui répertorie les URL d'un site permettant ainsi d'inclure des informations complémentaires sur chaque adresse, comme sa date de dernière modification, la fréquence de mise à jour et son importance par rapport aux autres adresses du site.
Cela permet donc aux moteurs de recherche d'explorer le site plus intelligemment.
Format XML et texte
Google accepte deux formats pour les sitemaps qui lui sont soumis : XML et texte. Le format de fichier texte est une simple liste des pages avec une URL complète, protocole "https://" (ou "https://") inclus. Le fichier XML standard comporte outre l'URL :
- une périodicité indicative pour les mises à jour de la page (de
hourly
àyearly
), - la date de dernière mise à jour,
- l'importance relative de la page par rapport aux autres pages du site (elle est ignorée par Google[4]...).
Un fichier sitemap peut contenir jusqu'à 50000 URL. Il est possible de faire un fichier index de sitemaps qui liste plusieurs sitemaps.
Une fois le plan de site enregistré auprès de Google, par exemple, vous pouvez obtenir des statistiques quant aux recherches sur le moteur qui aboutissent à vos pages.
Tous les moteurs de recherche ne proposant pas d'interface pour soumettre directement cette liste à leur index, une autre méthode consiste à ajouter le chemin vers le sitemap dans le fichier robots.txt via la syntaxe :
Sitemap: http://www.example.org/sitemap.xml
.
Gestion des langues
Les instructions concernant le ciblage linguistique et géographique peuvent être incluses dans le fichier XML. Ceci est une alternative à l'utilisation des attributs hreflang sur les balises link comme présenté ci-dessous :
<link rel="alternate" hreflang="en" href="http://www.example.com/en" >
<link rel="alternate" hreflang="gr" href="http://www.example.com/gr" >
Il est possible d'utiliser une alternative en indiquant ces informations directement dans le fichier sitemap :
<url>
<loc>http://www.example.com/en</loc>
<strong><xhtml:link
rel="alternate"
hreflang="gr"
href="http://www.example.com/gr" /></strong>
<strong><xhtml:link
rel="alternate"
hreflang="en"
href="http://www.example.com/en" /></strong>
</url>
<url>
<loc>http://www.example.com/gr</loc>
<strong><xhtml:link
rel="alternate"
hreflang="gr"
href="http://www.example.com/gr" /></strong>
<strong><xhtml:link
rel="alternate"
hreflang="en"
href="http://www.example.com/en" /></strong>
</url>
Références
- « Sitemap files — Webmaster — Yandex.Support », sur yandex.com (consulté le )
- « 百度用户服务中心-站长平台 », sur help.baidu.com (consulté le )
- Denis Szalkowski, « Soumission de votre sitemap », sur Denis Szalkowski Formateur Consultant, (consulté le )
- Olivier Duffez, « Fichier sitemap Google : tuto pour un bon référencement », sur WebRankInfo, (consulté le )
Liens externes
- Page officielle
- Robots.txt et sitemap XML, ressources en français sur la manière de faire référence à un sitemap index ou plusieurs fichiers sitemap.xml dans le fichier robots.txt
- Générateur de sitemap