Приклад Robots.txt
Html / / November 13, 2021
Власники веб-сайтів використовують файл /robots.txt, щоб давати інструкції щодо свого сайту ботам із пошукових систем, таких як Google, Yahoo, Bing тощо.
Система працює просто, якщо робот хоче відвідати URL-адресу, наприклад: https://www.ejemplode.com/ Перш ніж це зробити, перевірте https://www.ejemplode.com/robots.txt і його зміст фіксований. Через вміст robots.txt ботам наказано не індексувати певні файли та не отримувати доступ до них. Це може бути специфічним, наприклад, що певні боти не входять, а інші входять.
Використовуючи /robots.txt, дотримуйтеся двох важливих моментів:
- Роботи можуть ігнорувати ваш robots.txt. Особливо шкідливі боти, які сканують Інтернет на наявність вразливостей, і сканери електронних адрес, які використовуються для розсилки спаму.
- Файл robots.txt є загальнодоступним. Будь-хто може бачити вміст вашого robots.txt
Тому не використовуйте robots.txt для приховування інформації. Скоріше використовуйте його, щоб певний вміст вашого сайту не проіндексовано.
Ось кілька прикладів robots.txt з їх поясненням
код:Агент користувача: * Заборонити: /
Завдяки цьому коду всі роботи не зможуть отримати доступ до будь-якого вмісту сайту. Параметр User-agent призначений для вказівки роботів, в даному випадку зі зірочкою ми вказуємо на всіх з них. І Disallow тому, що вони не мають доступу. У цьому випадку, виконуючи Disallow в /, роботи не зможуть отримати доступ ніде.
код:Агент користувача: * Заборонити:
З іншого боку, якщо ми залишимо Disallow порожнім, нічого не відбудеться. Роботи можуть отримати доступ до будь-якого вмісту.
Тепер інший приклад
код:Агент користувача: * Заборонити: /contact.html. Заборонити: /file.html
Цей наступний код робить, що всі роботи не проходять через contact.html або file.html
Тоді ми маємо інший приклад, який не дозволяє жодному роботів проходити через сайт, крім бота Google
код:Агент користувача: Google. Заборонити: User-agent: *
Заборонити: /