Exemplu Robots.txt
Html / / July 04, 2021
Proprietarii de site-uri web folosesc fișierul /robots.txt pentru a da instrucțiuni despre site-ul lor către roboții de la motoarele de căutare precum Google, Yahoo, Bing etc.
Sistemul funcționează simplu, dacă un robot dorește să viziteze adresa URL, de exemplu: https://www.ejemplode.com/ Înainte de a face acest lucru, verificați https://www.ejemplode.com/robots.txt iar conținutul său este fix. Prin conținutul robots.txt, roboții sunt instruiți să nu indexeze sau să acceseze anumite fișiere. Poate fi specific, de exemplu, că anumiți roboți nu intră, dar alții intră.
Există două considerații importante atunci când utilizați /robots.txt:
- Roboții vă pot ignora robots.txt. Mai ales roboții malware care scanează pe web pentru a găsi vulnerabilități și scanerele de adrese de e-mail folosite pentru a trimite spam.
- Fișierul robots.txt este disponibil public. Oricine poate vedea conținutul robotului.txt
Deci, nu utilizați robots.txt pentru a ascunde informații. Folosiți-l mai degrabă astfel încât anumite conținuturi de pe site-ul dvs. să nu fie indexate.
Iată câteva exemple de robots.txt cu explicația lor
Cod:Agent utilizator: * Nu permiteți: /
Acest cod face ca toți roboții să nu poată accesa niciun conținut de pe site. Parametrul User-agent este acela de a specifica roboții, în acest caz cu asteriscul, îi indicăm pe toți. Și Disallow este astfel încât să nu poată accesa. În acest caz, făcând un Disallow în /, roboții nu pot accesa nicăieri.
Cod:Agent utilizator: * Nu permiteți:
Pe de altă parte, dacă lăsăm dezactivarea goală, nu se întâmplă nimic. Roboții pot accesa orice conținut.
Acum un alt exemplu
Cod:Agent utilizator: * Nu permiteți: /contact.html. Nu permiteți: /file.html
Acest cod următor face ca toți roboții să nu treacă prin contact.html sau file.html
Apoi avem acest alt exemplu care nu permite niciun robot să treacă prin site, cu excepția botului Google
Cod:Agent-utilizator: Google. Disallow: User-agent: *
Nu permiteți: /