„Robots.txt“ pavyzdys
Html / / July 04, 2021
Svetainių savininkai naudoja failą /robots.txt, kad pateiktų instrukcijas apie savo svetainę robotams iš paieškos sistemų, tokių kaip „Google“, „Yahoo“, „Bing“ ir kt.
Sistema veikia paprastai, jei robotas nori aplankyti URL, pavyzdžiui: https://www.ejemplode.com/ Prieš tai atlikdami, patikrinkite https://www.ejemplode.com/robots.txt o jo turinys yra fiksuotas. Per robotų.txt turinį robotams nurodoma neindeksuoti ir prieiti prie tam tikrų failų. Pavyzdžiui, gali būti konkretu, kad tam tikri robotai neįeina, bet kiti.
Naudojant /robots.txt yra du svarbūs aspektai:
- Robotai gali nepaisyti jūsų robots.txt. Ypač kenkėjiškų programų robotai, kurie internete ieško pažeidžiamumų, ir el. Pašto adresų skaitytuvai, naudojami šlamšto siuntimui.
- Robots.txt failas yra viešai prieinamas. Kiekvienas gali pamatyti jūsų robots.txt turinį
Taigi nenaudokite robots.txt, kad paslėptumėte informaciją. Verčiau naudokite jį, kad tam tikras jūsų svetainės turinys nebūtų indeksuojamas.
Čia yra keli robots.txt pavyzdžiai su jų paaiškinimu
Kodas:Vartotojo atstovas: * Neleisti: /
Šis kodas neleidžia visiems robotams pasiekti jokio svetainės turinio. „User-agent“ parametras turi nurodyti robotus, šiuo atveju pažymint žvaigždute, mes nurodome juos visus. Neleisti yra taip, kad jie negalėtų prieiti. Tokiu atveju, atlikdami „Disallow in /“, robotai niekur negali pasiekti.
Kodas:Vartotojo atstovas: * Neleisti:
Kita vertus, jei „Disallow“ paliksime tuščią, nieko neįvyks. Robotai gali pasiekti bet kokį turinį.
Dabar dar vienas pavyzdys
Kodas:Vartotojo atstovas: * Neleisti: /contact.html. Neleisti: /file.html
Šis kodas leidžia, kad visi robotai nepatektų į kontaktą.html ar failą.html
Tada mes turime šį kitą pavyzdį, kuris leidžia jokiam robotui nepraleisti svetainės, išskyrus „Google“ robotą
Kodas:Vartotojo agentas: „Google“. Neleisti: „User-agent“: *
Neleisti: /