Robots.txt voorbeeld
Html / / November 13, 2021
Website-eigenaren gebruiken het bestand /robots.txt om instructies over hun site te geven aan bots van zoekmachines zoals Google, Yahoo, Bing, enz.
Het systeem werkt eenvoudig, als een robot bijvoorbeeld de URL wil bezoeken: https://www.ejemplode.com/ Voordat je dit doet, check out https://www.ejemplode.com/robots.txt en de inhoud ervan staat vast. Via de robots.txt-inhoud krijgen bots de instructie bepaalde bestanden niet te indexeren of te openen. Het kan bijvoorbeeld specifiek zijn dat bepaalde bots niet binnenkomen, maar andere wel.
Er zijn twee belangrijke overwegingen bij het gebruik van /robots.txt:
- Robots kunnen uw robots.txt negeren. Vooral malwarebots die het web scannen op kwetsbaarheden en e-mailadresscanners die worden gebruikt om spam te verzenden.
- Het robots.txt-bestand is openbaar beschikbaar. Iedereen kan de inhoud van je robots.txt zien
Gebruik robots.txt dus niet om informatie te verbergen. Gebruik het liever zo dat bepaalde inhoud op uw site niet wordt geïndexeerd.
Hier zijn verschillende voorbeelden van robots.txt met hun uitleg
Code:User-agent: * Niet toestaan: /
Deze code zorgt ervoor dat alle robots geen toegang hebben tot inhoud op de site. De parameter User-agent is om de robots te specificeren, in dit geval met het sterretje, we verwijzen naar ze allemaal. En Disallow is zodat ze geen toegang hebben. In dit geval, door een Disallow in / uit te voeren, hebben de robots nergens toegang toe.
Code:User-agent: * Niet toestaan:
Aan de andere kant, als we Disallow leeg laten, gebeurt er niets. Robots hebben toegang tot alle inhoud.
Nu nog een voorbeeld
Code:User-agent: * Niet toestaan: /contact.html. Niet toestaan: /file.html
Deze volgende code zorgt ervoor dat alle robots niet via contact.html of file.html gaan
Dan hebben we nog dit andere voorbeeld waarbij geen enkele robot door de site kan, behalve de Google-bot
Code:User-agent: Google. Niet toestaan: User-agent: *
Niet toestaan: /