Příklad souboru robots.txt
Html / / July 04, 2021
Majitelé webových stránek používají soubor /robots.txt k poskytování pokynů o svých stránkách robotům z vyhledávačů, jako jsou Google, Yahoo, Bing atd.
Systém funguje jednoduše, pokud robot chce navštívit URL, například: https://www.ejemplode.com/ Než tak učiníte, podívejte se https://www.ejemplode.com/robots.txt a jeho obsah je pevný. Prostřednictvím obsahu robots.txt jsou roboti instruováni, aby neindexovali nebo nepřistupovali k určitým souborům. Může to být konkrétní, například že někteří roboti nevstupují, ale jiní ano.
Při použití /robots.txt existují dvě důležité úvahy:
- Roboti mohou váš soubor robots.txt ignorovat. Zejména malware roboti, kteří skenují na webu chyby zabezpečení, a skenery e-mailových adres používané k odesílání spamu.
- Soubor robots.txt je veřejně dostupný. Obsah vašeho souboru robots.txt může zobrazit kdokoli
Takže nepoužívejte soubor robots.txt ke skrytí informací. Použijte jej spíše k tomu, aby určitý obsah na vašem webu nebyl indexován.
Zde je několik příkladů souboru robots.txt s vysvětlením
Kód:Uživatelský agent: * Zakázat: /
Tento kód znemožňuje všem robotům přístup k jakémukoli obsahu na webu. Parametr User-agent má specifikovat roboty, v tomto případě s hvězdičkou, ukážeme na všechny z nich. A Disallow je tak, že nemají přístup. V tomto případě roboty Disallow v / nemají roboti přístup nikam.
Kód:Uživatelský agent: * Zakázat:
Na druhou stranu, pokud necháme Disallow prázdný, nic se neděje. Roboti mají přístup k jakémukoli obsahu.
Nyní další příklad
Kód:Uživatelský agent: * Zakázat: /contact.html. Zakázat: /file.html
Tento následující kód zajišťuje, že všichni roboti neprocházejí contact.html nebo file.html
Pak máme tento další příklad, který neumožňuje žádnému robotu projít webem, s výjimkou robota Google
Kód:Uživatelský agent: Google. Disallow: User-agent: *
Zakázat: /