Exemple de robots.txt
Html / / November 13, 2021
Les propriétaires de sites Web utilisent le fichier /robots.txt pour donner des instructions sur leur site aux robots des moteurs de recherche tels que Google, Yahoo, Bing, etc.
Le système fonctionne simplement, si un robot veut visiter l'URL par exemple: https://www.ejemplode.com/ Avant de le faire, consultez https://www.ejemplode.com/robots.txt et son contenu est fixe. Grâce au contenu du fichier robots.txt, les robots ont pour instruction de ne pas indexer ou d'accéder à certains fichiers. Il peut être spécifique, par exemple, que certains bots n'entrent pas, mais d'autres le font.
Il y a deux considérations importantes lors de l'utilisation de /robots.txt :
- Les robots peuvent ignorer votre fichier robots.txt. En particulier, les robots malveillants qui analysent le Web à la recherche de vulnérabilités et les scanners d'adresses e-mail utilisés pour envoyer du spam.
- Le fichier robots.txt est accessible au public. Tout le monde peut voir le contenu de votre fichier robots.txt
N'utilisez donc pas robots.txt pour masquer des informations. Utilisez-le plutôt pour que certains contenus de votre site ne soient pas indexés.
Voici plusieurs exemples de robots.txt avec leur explication
Code:Agent utilisateur: * Interdire: /
Ce code empêche tous les robots d'accéder au contenu du site. Le paramètre User-agent est de spécifier les robots, dans ce cas avec l'astérisque, nous pointons sur chacun d'eux. Et Disallow, c'est pour qu'ils ne puissent pas y accéder. Dans ce cas, en faisant un Disallow dans /, les robots ne peuvent accéder nulle part.
Code:Agent utilisateur: * Refuser:
Par contre, si on laisse le Disallow vide, rien ne se passe. Les robots peuvent accéder à n'importe quel contenu.
Maintenant un autre exemple
Code:Agent utilisateur: * Interdire: /contact.html. Interdire: /fichier.html
Ce code suivant, fait que tous les robots ne passent pas par contact.html ou file.html
Ensuite, nous avons cet autre exemple qui ne permet à aucun robot de traverser le site, à l'exception du bot Google
Code:Agent utilisateur: Google. Interdire: User-agent: *
Interdire: /