Robots.txt példa
Html / / November 13, 2021
A webhelytulajdonosok a /robots.txt fájl segítségével utasításokat adnak webhelyükről a keresőmotorok, például a Google, a Yahoo, a Bing stb. robotjainak.
A rendszer egyszerűen működik, ha egy robot meg akarja látogatni az URL-t, például: https://www.ejemplode.com/ Mielőtt ezt megtenné, ellenőrizze https://www.ejemplode.com/robots.txt és a tartalma rögzített. A robots.txt tartalom révén a robotok arra utasítják, hogy ne indexeljenek és ne érjenek el bizonyos fájlokat. Konkrét lehet például, hogy bizonyos botok nem lépnek be, mások viszont igen.
Két fontos szempont van a /robots.txt használatakor:
- A robotok figyelmen kívül hagyhatják a robots.txt fájlt. Különösen a rosszindulatú szoftverrobotok, amelyek sebezhetőségeket keresnek az interneten, és a spam küldésére használt e-mail cím-ellenőrzők.
- A robots.txt fájl nyilvánosan elérhető. Bárki láthatja a robots.txt fájl tartalmát
Tehát ne használja a robots.txt fájlt információk elrejtésére. Inkább használja arra, hogy webhelye bizonyos tartalmai ne legyenek indexelve.
Íme néhány példa a robots.txt fájlra a magyarázatukkal együtt
Kód:User-agent: * Letiltás: /
Ez a kód megakadályozza, hogy a robotok hozzáférjenek a webhely bármely tartalmához. A User-agent paraméter a robotok megadása, ebben az esetben a csillaggal mindegyikre mutatunk. A Disallow pedig azért van, hogy ne férhessenek hozzá. Ebben az esetben a Disallow in / in-ben végrehajtva a robotok nem férhetnek hozzá sehova.
Kód:User-agent: * Letiltás:
Másrészt, ha üresen hagyjuk a Disallow-t, nem történik semmi. A robotok bármilyen tartalomhoz hozzáférhetnek.
Most egy másik példa
Kód:User-agent: * Disallow: /contact.html. Disallow: /file.html
Ez a következő kód lehetővé teszi, hogy minden robot ne menjen át a contact.html vagy a file.html oldalon
Aztán van egy másik példa, amely lehetővé teszi, hogy egyetlen robot sem haladjon át a webhelyen, kivéve a Google botot
Kód:User-agent: Google. Disallow: User-agent: *
Letiltás: /