Príklad súboru robots.txt
Html / / July 04, 2021
Majitelia webových stránok používajú súbor /robots.txt na poskytovanie pokynov o svojich stránkach robotom z vyhľadávacích nástrojov, ako sú Google, Yahoo, Bing atď.
Systém funguje jednoducho, ak chce robot navštíviť adresu URL, napríklad: https://www.ejemplode.com/ Skôr ako tak urobíte, skontrolujte https://www.ejemplode.com/robots.txt a jeho obsah je nemenný. Prostredníctvom obsahu robots.txt dostávajú roboti pokyny, aby neindexovali alebo nepristupovali k určitým súborom. Môže to byť konkrétne napríklad to, že niektorí roboti nevstupujú, ale iní áno.
Pri použití /robots.txt sú potrebné dve dôležité úvahy:
- Roboti môžu váš súbor robots.txt ignorovať. Najmä malvéroví roboti, ktorí skenujú na webe chyby zabezpečenia, a skenery e-mailových adries používané na odosielanie spamu.
- Súbor robots.txt je verejne dostupný. Obsah vášho súboru robots.txt môže vidieť ktokoľvek
Na skrytie informácií teda nepoužívajte súbor robots.txt. Používajte ho radšej na to, aby určitý obsah na vašom webe nebol indexovaný.
Tu je niekoľko príkladov súboru robots.txt s ich vysvetlením
Kód:User-agent: * Zakázať: /
Tento kód znemožňuje všetkým robotom prístup k ľubovoľnému obsahu na webe. Parameter User-agent má určiť roboty, v tomto prípade s hviezdičkou ukážeme na všetkých. A zakázať to preto, aby nemali prístup. V takom prípade, keď urobíte Disallow v /, nebudú mať roboty prístup kamkoľvek.
Kód:User-agent: * Zakázať:
Na druhej strane, ak necháme Disallow prázdny, nič sa nedeje. Roboti majú prístup k ľubovoľnému obsahu.
Teraz ďalší príklad
Kód:User-agent: * Zakázať: /contact.html. Zakázať: /file.html
Tento nasledujúci kód umožňuje, aby všetci roboti neprechádzali cez contact.html alebo file.html
Potom máme tento ďalší príklad, ktorý neumožňuje žiadnemu robotovi prejsť cez web, s výnimkou robota Google
Kód:User-agent: Google. Disallow: User-agent: *
Zakázať: /