Robots.txt piemērs
Html / / July 04, 2021
Vietņu īpašnieki izmanto failu /robots.txt, lai sniegtu norādījumus par savu vietni robotiem no meklētājprogrammām, piemēram, Google, Yahoo, Bing utt.
Sistēma darbojas vienkārši, ja robots vēlas apmeklēt URL, piemēram: https://www.ejemplode.com/ pirms to izdarāt, pārbaudiet https://www.ejemplode.com/robots.txt un tā saturs ir fiksēts. Izmantojot robots.txt saturu, robotprogrammām tiek uzdots nerādīt vai piekļūt noteiktiem failiem. Tas var būt specifisks, piemēram, ka daži roboti neienāk, bet citi.
Lietojot /robots.txt, ir divi svarīgi apsvērumi:
- Roboti var ignorēt jūsu robots.txt. It īpaši ļaunprātīgas programmatūras roboti, kas tīmeklī skata ievainojamību, un e-pasta adrešu skeneri, ko izmanto surogātpasta sūtīšanai.
- Robots.txt fails ir publiski pieejams. Ikviens var redzēt jūsu robots.txt saturu
Tāpēc, lai paslēptu informāciju, nelietojiet robots.txt. Drīzāk izmantojiet to, lai noteikts jūsu vietnes saturs netiktu indeksēts.
Šeit ir vairāki robots.txt piemēri ar to skaidrojumu
Kods:Lietotāja aģents: * Neatļaut: /
Šis kods neļauj visiem robotiem piekļūt jebkuram vietnes saturam. User-agent parametram ir jānorāda roboti, šajā gadījumā ar zvaigznīti mēs norādām uz tiem visiem. Un neatļaut ir, lai viņi nevarētu piekļūt. Šajā gadījumā, veicot Disallow in /, roboti nevar piekļūt jebkur.
Kods:Lietotāja aģents: * Neatļaut:
No otras puses, ja atstājam neatļautu tukšu, nekas nenotiek. Roboti var piekļūt jebkuram saturam.
Tagad vēl viens piemērs
Kods:Lietotāja aģents: * Neatļaut: /contact.html. Neatļaut: /file.html
Šis kods liek visiem robotiem neiziet caur kontaktu.html vai failu.html
Tad mums ir šis cits piemērs, kas neļauj robotam iziet cauri vietnei, izņemot Google robotu
Kods:Lietotāju aģents: Google. Neatļaut: User-agent: *
Neatļaut: /