Príklad súboru Robots.txt
Html / / November 13, 2021
Vlastníci webových stránok používajú súbor /robots.txt na poskytovanie pokynov o svojich stránkach robotom z vyhľadávacích nástrojov, ako sú Google, Yahoo, Bing atď.
Systém funguje jednoducho, ak chce robot navštíviť URL napríklad: https://www.ejemplode.com/ Predtým, ako tak urobíte, skontrolujte https://www.ejemplode.com/robots.txt a jeho obsah je pevný. Prostredníctvom obsahu robots.txt sú roboty inštruované, aby neindexovali alebo nepristupovali k určitým súborom. Špecifické môže byť napríklad to, že niektorí roboti nevstupujú, ale iní áno.
Pri používaní súboru /robots.txt sú dôležité dve veci:
- Roboty môžu ignorovať váš súbor robots.txt. Najmä malvérové roboty, ktoré skenujú web na zraniteľné miesta, a skenery e-mailových adries používané na odosielanie spamu.
- Súbor robots.txt je verejne dostupný. Obsah vášho súboru robots.txt môže vidieť ktokoľvek
Na skrytie informácií preto nepoužívajte súbor robots.txt. Použite ho radšej tak, aby sa určitý obsah na vašej stránke neindexoval.
Tu je niekoľko príkladov súboru robots.txt s ich vysvetlením
kód:User-agent: * Disallow: /
Tento kód znemožňuje všetkým robotom pristupovať k akémukoľvek obsahu na stránke. Parameter User-agent má špecifikovať roboty, v tomto prípade s hviezdičkou ukazujeme na všetkých. A Disallow je, aby nemali prístup. V tomto prípade, vykonaním Disallow v /, roboti nemajú prístup nikam.
kód:User-agent: * Disallow:
Na druhej strane, ak necháme Disallow prázdne, nič sa nestane. Roboty majú prístup k akémukoľvek obsahu.
Teraz ďalší príklad
kód:User-agent: * Disallow: /contact.html. Disallow: /file.html
Tento nasledujúci kód zaisťuje, že všetky roboty neprechádzajú cez contact.html alebo file.html
Potom máme tento ďalší príklad, ktorý neumožňuje žiadnemu robotovi prejsť cez stránku, s výnimkou robota Google
kód:User-agent: Google. Disallow: User-agent: *
Disallow: /