Příklad souboru Robots.txt
Html / / November 13, 2021
Vlastníci webových stránek používají soubor /robots.txt k poskytování pokynů o svých stránkách robotům z vyhledávačů, jako je Google, Yahoo, Bing atd.
Systém funguje jednoduše, pokud chce robot navštívit URL například: https://www.ejemplode.com/ Než tak učiníte, zkontrolujte https://www.ejemplode.com/robots.txt a jeho obsah je pevně daný. Prostřednictvím obsahu robots.txt jsou roboti instruováni, aby neindexovali nebo nepřistupovali k určitým souborům. Může být specifické, například, že někteří boti nevstoupí, ale jiní ano.
Při používání souboru /robots.txt jsou důležité dvě věci:
- Roboti mohou ignorovat váš soubor robots.txt. Zejména malwaroví boti, kteří skenují web a hledají zranitelnosti, a skenery e-mailových adres používané k rozesílání spamu.
- Soubor robots.txt je veřejně dostupný. Obsah vašeho souboru robots.txt může vidět kdokoli
Ke skrytí informací tedy nepoužívejte soubor robots.txt. Použijte jej spíše k tomu, aby určitý obsah na vašem webu nebyl indexován.
Zde je několik příkladů souboru robots.txt s jejich vysvětlením
Kód:User-agent: * Disallow: /
Tento kód znemožňuje všem robotům přistupovat k žádnému obsahu na stránce. Parametr User-agent má specifikovat roboty, v tomto případě s hvězdičkou ukazujeme na všechny. A Disallow je, aby neměli přístup. V tomto případě, když uděláte Disallow v /, roboti nemají nikam přístup.
Kód:User-agent: * Disallow:
Na druhou stranu, pokud ponecháme Disallow prázdné, nic se nestane. Roboti mají přístup k libovolnému obsahu.
Nyní další příklad
Kód:User-agent: * Disallow: /contact.html. Disallow: /file.html
Tento následující kód zajišťuje, že všichni roboti neprocházejí přes contact.html nebo file.html
Pak máme tento další příklad, který neumožňuje žádnému robotovi projít webem, kromě robota Google
Kód:User-agent: Google. Disallow: User-agent: *
Disallow: /