Robots.txt pavyzdys
Html / / November 13, 2021
Svetainių savininkai naudoja /robots.txt failą, norėdami pateikti instrukcijas apie savo svetainę robotams iš paieškos sistemų, tokių kaip Google, Yahoo, Bing ir kt.
Sistema veikia paprastai, jei robotas nori aplankyti URL, pavyzdžiui: https://www.ejemplode.com/ Prieš tai darydami patikrinkite https://www.ejemplode.com/robots.txt o jo turinys yra fiksuotas. Naudojant robots.txt turinį, robotams nurodoma neindeksuoti ir nepasiekti tam tikrų failų. Tai gali būti konkreti, pavyzdžiui, kad tam tikri robotai neįeina, bet kiti įeina.
Yra du svarbūs aspektai naudojant /robots.txt:
- Robotai gali nepaisyti jūsų robots.txt. Ypač kenkėjiškų programų robotai, kurie nuskaito žiniatinklį dėl pažeidžiamumų, ir el. pašto adresų skaitytuvai, naudojami šlamštui siųsti.
- Failas robots.txt yra viešai prieinamas. Kiekvienas gali matyti jūsų robots.txt turinį
Taigi nenaudokite robots.txt informacijai paslėpti. Verčiau naudokite jį, kad tam tikras jūsų svetainės turinys nebūtų indeksuojamas.
Pateikiame kelis robots.txt pavyzdžius su paaiškinimu
Kodas:Vartotojo atstovas: * Neleisti: /
Dėl šio kodo visi robotai negali pasiekti jokio svetainės turinio. „User-agent“ parametras yra nurodyti robotus, šiuo atveju su žvaigždute nurodome juos visus. Ir Disallow yra todėl, kad jie negali pasiekti. Tokiu atveju, atlikus Disallow in /, robotai niekur negali pasiekti.
Kodas:Vartotojo atstovas: * Neleisti:
Kita vertus, jei paliksime Neleisti tuščią, nieko neatsitiks. Robotai gali pasiekti bet kokį turinį.
Dabar kitas pavyzdys
Kodas:Vartotojo atstovas: * Neleisti: /contact.html. Neleisti: /file.html
Šis kodas neleidžia visiems robotams pereiti per contact.html arba failą.html
Tada turime šį kitą pavyzdį, kuris neleidžia per svetainę praeiti jokiam robotui, išskyrus „Google“ robotą
Kodas:Vartotojo agentas: Google. Neleisti: vartotojo agentas: *
Neleisti: /