Primjer robota.txt
Html / / November 13, 2021
Vlasnici web stranica koriste /robots.txt datoteku da daju upute o svojoj web stranici botovima iz tražilica kao što su Google, Yahoo, Bing itd.
Sustav radi jednostavno, ako robot želi posjetiti URL, na primjer: https://www.ejemplode.com/ Prije nego što to učinite, provjerite https://www.ejemplode.com/robots.txt a njegov sadržaj je fiksan. Kroz sadržaj robots.txt, botovi dobivaju upute da ne indeksiraju ili pristupaju određenim datotekama. Može biti specifično, na primjer, da neki botovi ne ulaze, ali drugi ulaze.
Postoje dva važna razmatranja kada koristite /robots.txt:
- Roboti mogu zanemariti vaš robots.txt. Posebno zlonamjerni botovi koji skeniraju web u potrazi za ranjivostima i skeneri e-mail adresa koji se koriste za slanje neželjene pošte.
- Datoteka robots.txt je javno dostupna. Svatko može vidjeti sadržaj vaše datoteke robots.txt
Stoga nemojte koristiti robots.txt za skrivanje informacija. Umjesto toga, koristite ga tako da određeni sadržaj na vašoj web-lokaciji ne bude indeksiran.
Evo nekoliko primjera robots.txt s njihovim objašnjenjem
Kodirati:Korisnički agent: * Zabraniti: /
Ovaj kod čini da svi roboti ne mogu pristupiti bilo kojem sadržaju na stranici. Parametar User-agent je za navođenje robota, u ovom slučaju sa zvjezdicom, pokazujemo na sve njih. A Disallow je tako da ne mogu pristupiti. U ovom slučaju, radeći Disallow u /, roboti ne mogu nigdje pristupiti.
Kodirati:Korisnički agent: * Zabraniti:
S druge strane, ako ostavimo Disallow prazno, ništa se ne događa. Roboti mogu pristupiti bilo kojem sadržaju.
Sada još jedan primjer
Kodirati:Korisnički agent: * Disallow: /contact.html. Zabraniti: /file.html
Ovaj sljedeći kod čini da svi roboti ne prolaze kroz contact.html ili file.html
Zatim imamo ovaj drugi primjer koji ne dopušta niti jednom robotu da prođe kroz stranicu, osim Google botu
Kodirati:Korisnički agent: Google. Disallow: User-agent: *
Zabraniti: /