Primer Robots.txt
Html / / July 04, 2021
Lastniki spletnih mest z datoteko /robots.txt dajejo navodila o svojem spletnem mestu botom iz iskalnikov, kot so Google, Yahoo, Bing itd.
Sistem deluje preprosto, če hoče robot obiskati URL, na primer: https://www.ejemplode.com/ preden to storite, preverite https://www.ejemplode.com/robots.txt in njegova vsebina je fiksna. Z vsebino robots.txt se botom naroči, naj ne indeksirajo ali dostopajo do določenih datotek. Lahko je na primer določeno, da nekateri boti ne vstopijo, drugi pa vstopijo.
Pri uporabi /robots.txt sta potrebna dva pomembna vidika:
- Roboti lahko prezrejo datoteko robots.txt. Še posebej roboti zlonamerne programske opreme, ki v spletu iščejo ranljivosti, in skenerji e-poštnih naslovov, ki se uporabljajo za pošiljanje neželene pošte.
- Datoteka robots.txt je javno dostopna. Vsakdo lahko vidi vsebino vašega robots.txt
Zato ne uporabljajte datoteke robots.txt za skrivanje podatkov. Namesto tega ga uporabite tako, da določena vsebina na vašem spletnem mestu ni indeksirana.
Tu je nekaj primerov robots.txt z njihovo razlago
Koda:Uporabniški agent: * Dovoli: /
Ta koda onemogoča vsem robotom dostop do katere koli vsebine na spletnem mestu. Parameter User-agent določa robote, v tem primeru z zvezdico pokažemo na vse. In Disallow je tako, da ne morejo dostopati. V tem primeru roboti, ko naredijo Disallow v /, ne morejo nikjer dostopati.
Koda:Uporabniški agent: * Ne dovoli:
Po drugi strani pa, če pustimo Disallow prazen, se nič ne zgodi. Roboti lahko dostopajo do katere koli vsebine.
Zdaj še en primer
Koda:Uporabniški agent: * Ne dovoli: /contact.html. Ne dovoli: /file.html
Ta naslednja koda preprečuje, da bi vsi roboti šli skozi contact.html ali file.html
Nato imamo še en primer, ki dovoljuje, da noben robot ne prehaja skozi spletno mesto, razen Googlovega bota
Koda:Uporabniški agent: Google. Ne dovoli: Uporabniški agent: *
Dovoli: /