Exemplu Robots.txt
Html / / November 13, 2021
Proprietarii de site-uri web folosesc fișierul /robots.txt pentru a oferi instrucțiuni despre site-ul lor roboților din motoarele de căutare precum Google, Yahoo, Bing etc.
Sistemul funcționează simplu, dacă un robot dorește să viziteze adresa URL, de exemplu: https://www.ejemplode.com/ Înainte de a face acest lucru, verificați https://www.ejemplode.com/robots.txt iar conținutul său este fix. Prin conținutul robots.txt, roboții sunt instruiți să nu indexeze sau să acceseze anumite fișiere. Poate fi specific, de exemplu, că anumiți roboți nu intră, dar alții o fac.
Există două considerații importante atunci când utilizați /robots.txt:
- Roboții vă pot ignora robots.txt. Mai ales boții malware care scanează web-ul pentru vulnerabilități și scanere de adrese de e-mail folosite pentru a trimite spam.
- Fișierul robots.txt este disponibil public. Oricine poate vedea conținutul fișierului dvs. robots.txt
Prin urmare, nu utilizați robots.txt pentru a ascunde informații. Mai degrabă, folosește-l astfel încât anumite conținuturi de pe site-ul tău să nu fie indexate.
Iată câteva exemple de robots.txt cu explicația lor
Cod:Agent utilizator: * Nu permite: /
Acest cod face ca toți roboții să nu poată accesa niciun conținut de pe site. Parametrul User-agent este de a specifica roboții, în acest caz cu asterisc, indicăm pe toți. Și Disallow este astfel încât să nu poată accesa. În acest caz, făcând un Disallow în /, roboții nu pot accesa nicăieri.
Cod:Agent utilizator: * Nu permiteți:
Pe de altă parte, dacă lăsăm golul Disallow, nu se întâmplă nimic. Roboții pot accesa orice conținut.
Acum un alt exemplu
Cod:Agent utilizator: * Nu permiteți: /contact.html. Nu permiteți: /file.html
Acest cod următor face ca toți roboții să nu treacă prin contact.html sau file.html
Apoi avem și acest alt exemplu care nu permite niciun robot să treacă prin site, cu excepția botului Google
Cod:Agent utilizator: Google. Renunțați: agent utilizator: *
Nu permite: /