Robots.txt példa
Html / / July 04, 2021
A webhelytulajdonosok a /robots.txt fájl segítségével utasítást adnak a webhelyükről olyan keresőmotorok robotjainak, mint a Google, a Yahoo, a Bing stb.
A rendszer egyszerűen működik, ha egy robot meg akarja látogatni például az URL-t: https://www.ejemplode.com/ mielőtt ezt megtennéd, nézd meg https://www.ejemplode.com/robots.txt és tartalma rögzített. A robots.txt tartalom révén a botokat arra utasítják, hogy ne indexeljenek, vagy ne férjenek hozzá bizonyos fájlokhoz. Specifikus lehet például, hogy bizonyos botok nem lépnek be, mások viszont igen.
Két fontos szempont van a /robots.txt használatakor:
- A robotok figyelmen kívül hagyhatják a robots.txt fájlt. Különösen a weben sebezhetőségeket átkutató rosszindulatú programok, valamint a spam küldésére használt e-mail cím-szkennerek.
- A robots.txt fájl nyilvánosan elérhető. Bárki láthatja a robots.txt fájljának tartalmát
Tehát ne használja a robots.txt fájlt információk elrejtéséhez. Inkább használja, hogy a webhely bizonyos tartalma ne legyen indexelve.
Íme néhány példa a robots.txt-re, magyarázatukkal együtt
Kód:Felhasználó-ügynök: * Letiltás: /
Ez a kód minden robot számára nem képes hozzáférni a webhely egyetlen tartalmához sem. A User-agent paraméter a robotok megadása, ebben az esetben a csillaggal, mindegyikre mutatunk. A Disallow pedig nem teszi lehetővé a hozzáférést. Ebben az esetben a Disallow in / végrehajtásával a robotok nem férhetnek hozzá sehova.
Kód:Felhasználó-ügynök: * Letiltás:
Másrészt, ha üresen hagyjuk a Disallow-t, akkor semmi sem történik. A robotok bármilyen tartalomhoz hozzáférhetnek.
Most egy másik példa
Kód:Felhasználó-ügynök: * Letiltás: /contact.html. Letiltás: /file.html
Ez a következő kód miatt az összes robot nem megy át a contact.html vagy a file.html fájlokon
Aztán van egy másik példa, amely lehetővé teszi, hogy egyetlen robot sem haladjon át az oldalon, kivéve a Google botot
Kód:Felhasználó-ügynök: Google. Disallow: User-agent: *
Letiltás: /