Primjer roboti.txt
Html / / July 04, 2021
Vlasnici web stranica koriste datoteku /robots.txt za davanje uputa o svojoj web lokaciji botovima s tražilica kao što su Google, Yahoo, Bing itd.
Sustav radi jednostavno, ako robot želi posjetiti URL, na primjer: https://www.ejemplode.com/ Prije nego što to učinite, provjerite https://www.ejemplode.com/robots.txt a njegov je sadržaj fiksan. Kroz sadržaj robots.txt, botovi su upućeni da ne indeksiraju ili ne pristupaju određenim datotekama. Može biti specifično, na primjer, da neki botovi ne ulaze, ali drugi ulaze.
Postoje dva važna razmatranja pri korištenju /robots.txt:
- Roboti mogu ignorirati vaš robots.txt. Pogotovo botovi zlonamjernog softvera koji pretražuju web na ranjivosti i skeneri adresa e-pošte koji se koriste za slanje neželjene pošte.
- Datoteka robots.txt je javno dostupna. Svatko može vidjeti sadržaj vašeg robots.txt
Stoga nemojte koristiti robots.txt za skrivanje podataka. Umjesto toga, koristite ga tako da određeni sadržaj na vašoj web lokaciji ne bude indeksiran.
Evo nekoliko primjera robots.txt s njihovim objašnjenjem
Kodirati:Korisnički agent: * Zabraniti: /
Ovaj kôd onemogućava svim robotima pristup bilo kojem sadržaju na web mjestu. Parametar User-agent određuje robote, u ovom slučaju zvjezdicom ukazujemo na sve njih. A Disallow je tako da ne mogu pristupiti. U ovom slučaju, radeći Disallow u /, roboti ne mogu pristupiti nigdje.
Kodirati:Korisnički agent: * Zabraniti:
S druge strane, ako ostavimo Disallow praznim, ništa se neće dogoditi. Roboti mogu pristupiti bilo kojem sadržaju.
Sad još jedan primjer
Kodirati:Korisnički agent: * Onemogući: /contact.html. Onemogući: /file.html
Sljedeći kod omogućuje da svi roboti ne prolaze kroz contact.html ili file.html
Zatim imamo još jedan primjer koji dopušta prolazak bilo kojeg robota kroz web mjesto, osim Googleovog bota
Kodirati:Korisnički agent: Google. Onemogući: Korisnički agent: *
Zabraniti: /