Пример файла robots.txt
Html / / November 13, 2021
Владельцы веб-сайтов используют файл /robots.txt для передачи инструкций о своем сайте ботам из поисковых систем, таких как Google, Yahoo, Bing и т. Д.
Система работает просто, если робот хочет посетить URL, например: https://www.ejemplode.com/ Прежде чем это сделать, проверьте https://www.ejemplode.com/robots.txt и его содержание фиксировано. В содержимом robots.txt ботам дается указание не индексировать определенные файлы и не обращаться к ним. Например, это может быть определено, что одни боты не входят, а другие входят.
При использовании /robots.txt следует учитывать два важных момента:
- Роботы могут игнорировать ваш robots.txt. Особенно вредоносные боты, которые сканируют Интернет на наличие уязвимостей, и сканеры адресов электронной почты, используемые для рассылки спама.
- Файл robots.txt находится в открытом доступе. Кто угодно может видеть содержание вашего robots.txt
Так что не используйте robots.txt для сокрытия информации. Скорее используйте его, чтобы определенный контент на вашем сайте не индексировался.
Вот несколько примеров robots.txt с их объяснением.
Код:Пользовательский агент: * Запретить: /
Этот код лишает всех роботов доступа к какому-либо контенту на сайте. Параметр User-agent предназначен для указания роботов, в данном случае звездочкой мы указываем на всех из них. А Disallow означает, что они не могут получить доступ. В этом случае, выполняя Disallow в /, роботы не могут получить доступ никуда.
Код:Пользовательский агент: * Запретить:
С другой стороны, если мы оставим Disallow пустым, ничего не произойдет. Роботы могут получить доступ к любому контенту.
А теперь еще один пример
Код:Пользовательский агент: * Запретить: /contact.html. Запретить: /file.html
Этот следующий код запрещает всем роботам проходить через contact.html или file.html.
Затем у нас есть еще один пример, который не позволяет ни одному роботу проходить через сайт, кроме бота Google.
Код:Пользовательский агент: Google. Disallow: User-agent: *
Запретить: /