Un fichier robots.txt est un outil important qui permet de s’assurer que les robots des moteurs de recherche sont en mesure d’accéder et d’indexer les pages d’un site Web qui sont les plus importantes pour le référencement. Comme tout référenceur le sait, ces robots d’exploration ont un « budget d’exploration » limité à consacrer à un site, il est donc essentiel de les diriger efficacement. Le fichier robots.txt peut être utilisé pour bloquer l’accès des robots aux pages qui ne sont pas importantes pour le référencement, ce qui leur permet de se concentrer sur celles qui sont importantes. En outre, il peut également être utilisé pour spécifier la fréquence à laquelle les robots viennent revisiter les pages pour vérifier les mises à jour. En utilisant correctement le fichier robots.txt, vous pouvez optimiser votre budget d’exploration et améliorer votre classement général dans les moteurs de recherche.
La définition du robots.txt
En spécifiant le contenu qui doit ou ne doit pas être exploré par les robots, les propriétaires de sites Web peuvent mieux contrôler la façon dont leurs pages sont indexées et affichées dans les résultats de recherche. Cependant, il est important de noter que le fichier robots.txt (placé par exemple via FTP à la racine d’un serveur de site Internet) n’est pas une garantie de confidentialité et si une page est liée à une autre source, elle peut toujours apparaître dans les résultats de recherche même si elle est listée comme interdite dans le fichier robots.txt. Néanmoins, l’utilisation correcte du fichier robots.txt peut améliorer considérablement le référencement naturel d’un site Web et sa présence globale dans les résultats de recherche.
En pratique, tout crawler (out bot comme Google Bot) a le droit d’accéder au fichier robots.txt d’un site Web et de l’ignorer et c’est en cela d’ailleurs qu’il est essentiel d’utiliser d’autres méthodes pour contrôler l’accès des crawlers. Cela étant dit, placer un fichier robots.txt à la racine du dossier de votre site Web peut toujours servir de première ligne de défense efficace contre les activités d’exploration indésirables. En général, un utilisateur lambda peut accéder à ce fichier en tapant par exemple : monnomdedomaine.com/robots.txt
En indiquant clairement les zones auxquelles il ne faut pas accéder, vous pouvez minimiser le risque de compromission d’informations sensibles ou d’utilisation inefficace des ressources du serveur même si pour éviter l’indexation des pages, une meta « no index » est nettement plus pratique.
Quelles instructions possibles et formats pour un robots.txt ?
Placé dans le répertoire racine de votre site Web afin que les robots des moteurs de recherche puissent le trouver facilement, ce fichier peut être configuré de multiples manières. En voci quelques exemples mais commençons par évoquer les formats.
Le format d’un fichier robots.txt
C’est très souventcelui-ci :
User-agent : [nom du robot]
Disallow : [pages à ne pas crawler]
Autoriser : [pages à crawler]
Plan du site : [URL du plan du site]
Des exemples d’instructions dans le fichier robots.txt
Voici quelques exemples d’instructions qui peuvent être données à un fichier robots.txt :
Exemple 1 :
User-agent: *
Disallow: /admin/
Allow : /
stitemap : https://www.example.com/sitemap.xml
Cette instruction indique à tous les robots d’exploration du Web qu’ils ne sont pas autorisés à explorer les pages du répertoire d’administration, mais qu’ils sont autorisés à explorer toutes les autres pages du site Web. En outre, elle fournit l’URL du plan du site afin que les robots d’exploration puissent le trouver facilement.
Exemple 2 :
User-agent: Googlebot
Dsallow
Allow : /
Plan du site : https://www.example.com/sitemap.xml
Cette instruction indique au robot d’exploration Googlebot qu’il est autorisé à explorer toutes les pages du site Web. En outre, elle fournit l’URL du plan du site afin que le Googlebot puisse le trouver facilement.
Exemple 3 :
VOus l’avez compris, la directive « Allow » s’oppose à la directive « Disallow ». Elle n’est théoriquement supportée que par Google et Bing et elle est utilisée comme ceci :
User-agent: *
Disallow: /media
Allow : /media/image23.jpg
Dans cet exemple, l’ensemble des robots doivent théoriquement éviter le répertoire /media, sauf le fichier image23.jpg
Pour conclure sur le fichier robots.txt
Le fichier robots.txt est un fichier texte (un éditeur texte suffit à l’ouvrir et le modifier) qui, comme nous l’avons vu, indique aux robots d’exploration les pages de votre site Web qui doivent ou non être analysées et indexées par le moteur de recherche. Ce fichier robots.txt est également placé dans le répertoire racine de votre site Web afin que les robots des moteurs de recherche puissent le trouver facilement. En respectant le format approprié et en utilisant des instructions spécifiques comme dans les exemples ci-dessus, vous pouvez contrôler les parties de votre site Web qui sont explorées et indexées par le moteur de recherche. Cela vous permet d’éviter que des informations sensibles ou privées soient rendues publiques tout en rendant votre site Web accessible aux robots d’exploration.
Nous vous recommandons de rendre ce fichier accessible physiquement. Par ailleurs, il ne peut y en avoir qu’un ainsi nommé robots.txt ; Inutile de placer d’autres fichiers du même type dans d’autres dossiers de l’arborescence de votre serveur de site Internet, seul celui qui est accessible à la racine sera considéré par les moteurs de recherche comme Google.
P.R.