Qu’est ce que le robots.txt ?
Si vous êtes un développeur Web, vous avez probablement entendu parler de robots.txt, mais de quoi s’agit-il exactement ?
Le robots.txt, qu’est ce que c’est ?
En bref, robots.txt est un fichier qui vous permet de contrôler la façon dont les moteurs de recherche et autres robots interagissent avec votre site Web. Vous pouvez l’utiliser pour bloquer ou autoriser l’accès des robots à certains fichiers et répertoires, ou pour leur donner des instructions spécifiques sur la façon d’explorer votre site. Continuez à lire pour en savoir plus sur cet outil pratique !
La norme d’exclusion des robots, également connue sous le nom de protocole d’exclusion des robots ou simplement de robots.txt, est une norme utilisée par les sites Web pour communiquer avec les robots d’exploration et autres robots Web. La norme précise comment informer le robot web des zones du site web qui ne doivent pas être traitées ou analysées.
Utilité du Robots.txt
Les fichiers robots.txt contrôlent l’accès des robots à certaines zones de votre site. Bien qu’il puisse être très dangereux d’interdire accidentellement à Googlebot d’explorer l’ensemble de votre site, il existe certaines situations dans lesquelles un fichier robots.txt peut être très utile.
Les cas d’utilisation courants comprennent :
- Éviter le crawling de contenu dupliqué.
- Empêcher l’exploration d’un moteur de recherche interne.
- Empêcher les moteurs de recherche d’indexer certaines images sur votre site.
- Spécifier l’emplacement du sitemap.
- Spécifier un délai d’analyse pour éviter que vos serveurs ne soient surchargés lorsque les crawlers chargent plusieurs éléments de contenu simultanément.
Où placer le fichier robots.txt ?
Vous ne savez pas si vous avez un fichier robots.txt ?
Il suffit de taper votre domaine racine,
puis ajoutez /robots.txt à la fin de l’URL. Par exemple, le fichier robots de « Adwi » se trouve sur le domaine « https://www.adwi.fr/robots.txt« .
Si aucune page .txt n’apparaît, cela signifie que vous n’avez pas de page robots.txt (en direct).
Si vous n’avez pas de fichier robots.txt :
En avez-vous besoin ? Vérifiez que vous n’avez pas de pages de faible valeur qui en ont besoin. Exemple : panier d’achat, pages de recherche de votre moteur de recherche interne, etc.
Si vous en avez besoin, créez le fichier en suivant les directives mentionnées ci-dessus.
Comment créer un fichier robots.txt pour un site Web ?
Un fichier robots.txt est constitué d’une ou plusieurs règles. Suivez les règles de base des fichiers robots.txt, c’est-à-dire les règles de formatage, de syntaxe et d’emplacement énoncées ci-dessus pour créer le fichier robots.txt.
En ce qui concerne le format et l’emplacement, vous pouvez utiliser pratiquement n’importe quel éditeur de texte pour créer un fichier robots.txt. L’éditeur de texte doit être capable de créer des fichiers texte standard ASCII ou UTF-8. N’utilisez pas de traitement de texte, car ces programmes enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (par exemple, des guillemets), ce qui peut perturber les robots.
Règles de formatage et d’utilisation
- Le fichier robots.txt est un fichier texte qui doit être placé à la racine du serveur/site, par exemple https://smartkeyword.io/robots.txt.
- Il ne peut pas être placé dans un sous-répertoire (par exemple, dans http://example.com/pages/robots.txt), mais peut être appliqué aux sous-domaines (par exemple, http://website.example.com/robots.txt).
- Le nom du fichier robots.txt doit être en minuscules (pas de Robots.txt ou ROBOTS.TXT).
- Votre site ne peut contenir qu’un seul fichier robots.txt.
- S’il est absent, une erreur 404 s’affichera et les robots considéreront qu’aucun contenu n’est interdit.
Meilleures pratiques
- Assurez-vous que vous ne bloquez pas le contenu ou les sections de votre site Web que vous souhaitez faire ramper.
- Les liens sur les pages bloquées par robots.txt ne seront pas suivis.
- N’utilisez pas robots.txt pour empêcher l’affichage de données sensibles dans les SERP. Comme d’autres pages peuvent renvoyer directement à la page contenant des informations privées, elles peuvent quand même être indexées. Si vous souhaitez bloquer votre page dans les résultats de recherche, utilisez une autre méthode, comme la protection par mot de passe ou la directive méta noindex.
- Certains moteurs de recherche ont plusieurs utilisateurs. Par exemple, Google utilise Googlebot pour la recherche organique et Googlebot-Image pour la recherche d’images. La plupart des agents utilisateurs d’un même moteur de recherche suivent les mêmes règles. Il n’est donc pas nécessaire de spécifier des directives pour les différents robots des moteurs de recherche, mais cela vous permet d’affiner la façon dont le contenu de votre site est analysé.
- Un moteur de recherche met en cache le contenu du fichier robots.txt, mais il met généralement à jour le contenu du cache au moins une fois par jour. Si vous modifiez le fichier et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer votre URL robots.txt à Google.