Приклад Robots.txt
Html / / July 04, 2021
Власники веб-сайтів використовують файл /robots.txt, щоб давати інструкції щодо свого сайту ботам із таких пошукових систем, як Google, Yahoo, Bing тощо.
Система працює просто, якщо робот хоче відвідати URL-адресу, наприклад: https://www.ejemplode.com/ Перш ніж це зробити, перевірте https://www.ejemplode.com/robots.txt і його зміст є фіксованим. За допомогою вмісту robots.txt ботам пропонується не індексувати та не отримувати доступ до певних файлів. Наприклад, може бути конкретним, що певні боти не входять, але інші входять.
Є два важливі міркування при використанні /robots.txt:
- Роботи можуть ігнорувати ваш файл robots.txt. Особливо боти зловмисного програмного забезпечення, які сканують Інтернет на наявність уразливостей, та сканери адрес електронної пошти, що використовуються для надсилання спаму.
- Файл robots.txt є загальнодоступним. Будь-хто може бачити вміст вашого robots.txt
Тому не використовуйте robots.txt для приховування інформації. Скоріше, використовуйте його, щоб певний вміст на вашому сайті не проіндексувався.
Ось кілька прикладів robots.txt з їх поясненнями
Код:User-agent: * Заборонити: /
Цей код робить всіх роботів не в змозі отримати доступ до будь-якого вмісту на сайті. Параметр User-agent - це вказати роботів, у цьому випадку зірочкою ми вказуємо на всіх них. А Disallow - це так, що вони не можуть отримати доступ. У цьому випадку, роблячи Disallow в /, роботи не можуть отримати доступ ніде.
Код:User-agent: * Заборонити:
З іншого боку, якщо ми залишаємо Disallow порожнім, нічого не відбувається. Роботи можуть отримати доступ до будь-якого вмісту.
Тепер інший приклад
Код:User-agent: * Заборонити: /contact.html. Заборонити: /file.html
Цей наступний код робить так, щоб усі роботи не переходили через contact.html або file.html
Тоді ми маємо ще один приклад, який дозволяє жодному роботу не проходити через сайт, крім бота Google
Код:Агент користувача: Google. Заборонити: User-agent: *
Заборонити: /