Robots.txt näide
Html / / July 04, 2021
Veebisaitide omanikud kasutavad faili /robots.txt, et anda oma saidi kohta juhiseid otsimootorite robotitele, näiteks Google, Yahoo, Bing jne.
Süsteem töötab lihtsalt, kui robot soovib näiteks URL-i külastada: https://www.ejemplode.com/ Enne seda kontrollige https://www.ejemplode.com/robots.txt ja selle sisu on fikseeritud. Robotite.txt sisu kaudu antakse robotitele käsk teatud faile mitte indekseerida ega neile juurde pääseda. See võib olla näiteks konkreetne, et teatud robotid ei sisene, teised aga sisenevad.
/Robots.txt kasutamisel on kaks olulist kaalutlust:
- Robotid võivad teie robotit.txt ignoreerida. Eriti pahavara robotid, mis kontrollivad veebis haavatavusi, ja e-posti aadresside skannerid, mida kasutatakse rämpsposti saatmiseks.
- Fail robots.txt on avalikult saadaval. Igaüks näeb teie robots.txt sisu
Nii et ärge kasutage teabe peitmiseks robots.txt. Kasutage seda pigem selleks, et teie saidi teatud sisu ei indekseeritaks.
Siin on mitu näidet robots.txt koos nende selgitusega
Kood:Kasutaja agent: * Keela: /
Selle koodi tõttu ei pääse kõik robotid saidil olevale sisule juurde. Parameeter User-agent on robotite täpsustamine, antud juhul tähega tähistame neid kõiki. Ja keelamine on nii, et nad ei pääse juurde. Sellisel juhul, tehes keelamise /, ei pääse robotid kuhugi juurde.
Kood:Kasutaja agent: * Keela:
Teisalt, kui jätame Keela tühjaks, ei juhtu midagi. Robotid pääsevad juurde igale sisule.
Nüüd veel üks näide
Kood:Kasutaja agent: * Keela: /contact.html. Keela: /file.html
Selle järgmise koodi abil ei saa kõik robotid läbida kontakti.html ega faili.html
Siis on meil veel üks näide, mis lubab ühelgi robotil saiti läbida, välja arvatud Google'i robot
Kood:Kasutajaagent: Google. Keela: kasutajaagent: *
Keela: /