Robots.txt näide
Html / / November 13, 2021
Veebisaitide omanikud kasutavad faili /robots.txt, et anda oma saidi kohta juhiseid robotitele sellistest otsingumootoritest nagu Google, Yahoo, Bing jne.
Süsteem töötab lihtsalt, kui robot soovib külastada URL-i näiteks: https://www.ejemplode.com/ Enne seda kontrollige https://www.ejemplode.com/robots.txt ja selle sisu on fikseeritud. Faili robots.txt sisu kaudu antakse robotitele korraldus mitte indekseerida ega pääseda juurde teatud failidele. Konkreetne võib olla näiteks see, et teatud robotid ei sisene, aga teised sisenevad.
Faili /robots.txt kasutamisel on kaks olulist kaalutlust.
- Robotid võivad teie faili robots.txt ignoreerida. Eriti pahavararobotid, mis otsivad veebist haavatavusi, ja rämpsposti saatmiseks kasutatavad meiliaadresside skannerid.
- Fail robots.txt on avalikult saadaval. Igaüks näeb faili robots.txt sisu
Nii et ärge kasutage faili robots.txt teabe peitmiseks. Pigem kasutage seda nii, et teie saidi teatud sisu ei indekseerita.
Siin on mitu faili robots.txt näidet koos selgitustega
Kood:Kasutaja agent: * Keela: /
See kood ei võimalda kõigil robotitel saidi sisule juurde pääseda. User-agent parameeter on robotite määramine, antud juhul tärniga osutame neile kõigile. Ja Disallow on selleks, et nad ei pääseks juurde. Kui teete käsu Disallow in /, ei pääse robotid kuhugi juurde.
Kood:Kasutaja agent: * Keela:
Teisest küljest, kui jätame Disallow tühjaks, ei juhtu midagi. Robotid pääsevad juurde mis tahes sisule.
Nüüd veel üks näide
Kood:Kasutaja agent: * Keela: /contact.html. Keela: /file.html
See järgmine kood tagab, et kõik robotid ei läbi kontakt.html ega file.html
Siis on meil see teine näide, mis ei luba ühelgi robotil saidilt läbida, välja arvatud Google'i robot
Kood:Kasutajaagent: Google. Keela: kasutajaagent: *
Keela: /