Primer datoteke robots.txt
Html / / November 13, 2021
Lastniki spletnih mest uporabljajo datoteko /robots.txt za dajanje navodil o svojem spletnem mestu botom iz iskalnikov, kot so Google, Yahoo, Bing itd.
Sistem deluje preprosto, če želi robot obiskati URL na primer: https://www.ejemplode.com/ Preden to storite, preverite https://www.ejemplode.com/robots.txt in njegova vsebina je določena. Preko vsebine robots.txt se botom naroči, naj ne indeksirajo ali dostopajo do določenih datotek. Konkretno je lahko na primer, da nekateri roboti ne vstopijo, drugi pa.
Pri uporabi /robots.txt upoštevajte dva pomembna vidika:
- Roboti lahko prezrejo vaš robots.txt. Zlasti boti zlonamerne programske opreme, ki pregledujejo splet za ranljivosti, in skenerji e-poštnih naslovov, ki se uporabljajo za pošiljanje neželene pošte.
- Datoteka robots.txt je javno dostopna. Vsakdo lahko vidi vsebino vaše datoteke robots.txt
Zato ne uporabljajte datoteke robots.txt za skrivanje informacij. Namesto tega ga uporabite tako, da določena vsebina na vašem spletnem mestu ne bo indeksirana.
Tukaj je nekaj primerov robots.txt z njihovo razlago
Koda:Uporabniški agent: * Onemogoči: /
Zaradi te kode vsi roboti ne morejo dostopati do nobene vsebine na spletnem mestu. Parameter User-agent je za določitev robotov, v tem primeru z zvezdico, pokažemo na vse. In Disallow je zato, da ne morejo dostopati. V tem primeru, če naredite Disallow v /, roboti ne morejo nikamor dostopati.
Koda:Uporabniški agent: * Onemogoči:
Po drugi strani pa, če pustimo Disallow prazno, se nič ne zgodi. Roboti lahko dostopajo do katere koli vsebine.
Zdaj pa še en primer
Koda:Uporabniški agent: * Onemogoči: /contact.html. Onemogoči: /file.html
Ta naslednja koda omogoča, da vsi roboti ne gredo skozi contact.html ali file.html
Potem imamo še en primer, ki nobenemu robotu ne omogoča prehoda skozi spletno mesto, razen Googlovega bota
Koda:Uporabniški agent: Google. Onemogoči: Uporabniški agent: *
Onemogoči: /