Robots.txt piemērs
Html / / November 13, 2021
Vietņu īpašnieki izmanto failu /robots.txt, lai sniegtu norādījumus par savu vietni robotiem no meklētājprogrammām, piemēram, Google, Yahoo, Bing utt.
Sistēma darbojas vienkārši, ja robots vēlas apmeklēt URL, piemēram: https://www.ejemplode.com/ Pirms to darāt, pārbaudiet https://www.ejemplode.com/robots.txt un tā saturs ir fiksēts. Izmantojot robots.txt saturu, robotprogrammatūras saņem norādījumus neindeksēt vai piekļūt noteiktiem failiem. Tas var būt specifisks, piemēram, ka daži roboti neienāk, bet citi to dara.
Lietojot /robots.txt, ir jāņem vērā divi svarīgi apsvērumi:
- Roboti var ignorēt jūsu robots.txt. Īpaši ļaunprogrammatūras robotprogrammatūras, kas skenē tīmeklī ievainojamības, un e-pasta adrešu skeneri, ko izmanto surogātpasta sūtīšanai.
- Fails robots.txt ir publiski pieejams. Ikviens var redzēt jūsu robots.txt saturu
Tāpēc neizmantojiet failu robots.txt, lai slēptu informāciju. Drīzāk izmantojiet to, lai noteiktu saturu jūsu vietnē netiktu indeksēts.
Šeit ir vairāki robots.txt piemēri ar paskaidrojumiem
Kods:Lietotāja aģents: * Neatļaut: /
Šis kods neļauj visiem robotiem piekļūt jebkuram vietnes saturam. Lietotāja aģenta parametrs ir norādīt robotus, šajā gadījumā ar zvaigznīti mēs norādām uz tiem visiem. Un Disallow ir tāpēc, ka viņi nevar piekļūt. Šajā gadījumā, veicot Disallow in /, roboti nevar piekļūt nekur.
Kods:Lietotāja aģents: * Neatļaut:
No otras puses, ja atstājam Disallow tukšu, nekas nenotiek. Roboti var piekļūt jebkuram saturam.
Tagad vēl viens piemērs
Kods:Lietotāja aģents: * Neatļaut: /contact.html. Neatļaut: /file.html
Šis kods nodrošina, ka visi roboti neiziet cauri contact.html vai file.html
Tad mums ir šis cits piemērs, kas neļauj nevienam robotam iziet cauri vietnei, izņemot Google robotu
Kods:Lietotāja aģents: Google. Neatļaut: lietotāja aģents: *
Neatļaut: /