Пример Robots.txt
Html / / July 04, 2021
Собствениците на уебсайтове използват файла /robots.txt, за да дадат инструкции за своя сайт на ботове от търсачки като Google, Yahoo, Bing и др.
Системата работи просто, ако робот иска да посети URL адреса, например: https://www.ejemplode.com/ Преди да направите това, проверете https://www.ejemplode.com/robots.txt и съдържанието му е фиксирано. Чрез съдържанието robots.txt ботовете са инструктирани да не индексират или да имат достъп до определени файлове. Може да бъде конкретно, например, че определени ботове не влизат, но други влизат.
Има две важни съображения при използването на /robots.txt:
- Роботите могат да игнорират вашия robots.txt. Особено ботове за злонамерен софтуер, които сканират мрежата за уязвимости и скенери за имейл адреси, използвани за изпращане на спам.
- Файлът robots.txt е публично достъпен. Всеки може да види съдържанието на вашия robots.txt
Затова не използвайте robots.txt, за да скриете информация. По-скоро го използвайте, така че дадено съдържание на вашия сайт да не бъде индексирано.
Ето няколко примера robots.txt с тяхното обяснение
Код:Потребителски агент: * Забрани: /
Този код прави всички роботи неспособни да получат достъп до каквото и да е съдържание на сайта. Параметърът User-agent е да посочи роботите, в този случай със звездичката ние сочим към всички тях. И Disallow е така, че те да нямат достъп. В този случай, правейки Disallow в /, роботите нямат достъп никъде.
Код:Потребителски агент: * Забрани:
От друга страна, ако оставим Disallow празна, нищо не се случва. Роботите имат достъп до всяко съдържание.
Сега друг пример
Код:Потребителски агент: * Забраняване: /contact.html. Забрана: /file.html
Този следващ код прави всички роботи да не преминават през contact.html или file.html
Тогава имаме този друг пример, който позволява на никой робот да не минава през сайта, с изключение на бота на Google
Код:Потребителски агент: Google. Disallow: Потребителски агент: *
Забрани: /