Robots.txt-eksempel
Html / / July 04, 2021
Webstedejere bruger filen /robots.txt til at give instruktioner om deres websted til bots fra søgemaskiner som Google, Yahoo, Bing osv.
Systemet fungerer simpelt, hvis en robot f.eks. Vil besøge URL: https://www.ejemplode.com/ inden du gør det, skal du tjekke ud https://www.ejemplode.com/robots.txt og dens indhold er fast. Gennem robots.txt-indholdet instrueres bots i ikke at indeksere eller få adgang til bestemte filer. Det kan for eksempel være specifikt, at visse bots ikke kommer ind, men andre gør det.
Der er to vigtige overvejelser, når du bruger /robots.txt:
- Robotter kan ignorere din robots.txt. Især malware-robotter, der scanner på nettet for sårbarheder, og e-mail-adressescannere, der bruges til at sende spam.
- Robots.txt-filen er offentligt tilgængelig. Alle kan se indholdet af din robots.txt
Så brug ikke robots.txt til at skjule information. Brug det snarere, så bestemt indhold på dit websted ikke indekseres.
Her er flere eksempler på robots.txt med deres forklaring
Kode:Brugeragent: * Tillad ikke: /
Denne kode gør, at alle robotter ikke kan få adgang til noget indhold på webstedet. User-agent-parameteren er at specificere robotterne, i dette tilfælde med stjernen peger vi på dem alle. Og Disallow er, så de ikke kan få adgang. I dette tilfælde kan robotterne ikke få adgang til nogen steder ved at gøre en Disallow in /.
Kode:Brugeragent: * Tillad ikke:
På den anden side, hvis vi lader Disallow være tomme, sker der intet. Robotter har adgang til alt indhold.
Nu et andet eksempel
Kode:Brugeragent: * Tillad ikke: /contact.html. Tillad ikke: /fil.html
Denne følgende kode gør, at alle robotter ikke går gennem contact.html eller file.html
Så har vi dette andet eksempel, der tillader ingen robot at passere gennem webstedet, undtagen Google bot
Kode:Brugeragent: Google. Tillad ikke: Brugeragent: *
Tillad ikke: /