Le fichier robots.txt, c’est quoi ?

Facebook Tweet Pin Email

Le fichier robots.txt (avec un « s ») est le premier fichier que visitent les crawlers des moteurs de recherche lorsqu’ils commencent à indexer un site web. Dans ce fichier, sont consignés des directives écrites par le webmaster du site web à destination des robots et donc des crawlers des moteurs de recherche. La présence de ce fichier n’a rien d’obligatoire.
Le fichier robots.txt (ou fichier d’exclusion des robots) est le moyen côté webmaster d’implémenter le protocole d’exclusion des robots (Robots Exclusion Protocol).

« Robots Exclusion Protocol », kezako ?

Plus précisément, ce protocole permet aux webmasters de communiquer aux robots (et donc aussi aux crawlers des moteurs de recherche) :
les parties (privées) de leurs sites web à ne pas indexer,
la vitesse maximale d’indexation souhaitée (directive non standard),
ainsi que l’emplacement de leur fichier sitemap.xml (directive non standard).
Ce protocole est issu d’un consensus, il n’a pas valeur d’obligation. Néanmoins, les crawlers des moteurs de recherche s’y astreignent.

Pourquoi s’embarrasser d’un fichier robots.txt ?

Le fichier robots.txt n’est pas une technologie incontournable. Elle peut cependant avoir son utilité. Si vous avez des milliers de pages qu’il n’est pas intéressant de voir indexées, le signaler aux robots via le fichier robots.txt vous permet d’économiser de précieuses ressources (bande passante, cpu, etc.). Les crawlers ne rapatrieront plus inutilement toutes ces pages web. Sachez que lorsque les robots se déchaînent, ils peuvent être gros consommateurs de ressources pour votre serveur web (hébergeur) et pénaliser lourdement dans leur navigation (ralentir) les internautes qui visitent votre site web au même moment.
Le fichier robots.txt n’est visité que par les robots. Si vous surveillez l’indexation de votre site web, c’est un moyen pour vous de savoir quels sont les robots qui vous rendent le plus souvent visite. La consultation de vos fichiers de logs (sur votre serveur web) vous fournira ces informations.

Comment rédiger mon fichier robots.txt ?

Le fichier robots.txt se compose d’un ou plusieurs blocs d’instructions. Une ou plusieurs lignes vides marquent la fin d’un bloc d’instructions. Chaque bloc contient des directives et éventuellement des commentaires. Les commentaires commencent toujours par le caractère « # » (ils sont ignorés par les robots).
Le fichier robots.txt est construit à l’aide de deux directives standards : User-agent et Disallow. Chaque bloc débute par une ou plusieurs directives User-agent suivies par une ou plusieurs directives Disallow. Des commentaires peuvent être placés à n’importe quel endroit.

La directive « User-agent »
Chaque crawler est identifiable par son User Agent (identité qu’il s’est lui-même attribué). A chaque fois qu’il effectue une requête auprès d’un serveur web, il se présente avec son User Agent.
Le crawler de Google a pour User Agent, Googlebot. Tandis que celui de Yahoo a pour User Agent Yahoo Slurp. Pareillement, le crawler de Live Search a pour User Agent msnbot.
Cette directive est une directive standard, elle vous permet d’indiquer à quels crawlers s’adresse le bloc d’instructions qui la suit.
La directive « Disallow »
Cette directive est une directive standard, elle signale quels sont les répertoires ou fichiers qui ne doivent pas être visités.