Robots.txt voorbeeld
Html / / July 04, 2021
Website-eigenaren gebruiken het bestand /robots.txt om instructies over hun site te geven aan bots van zoekmachines zoals Google, Yahoo, Bing, enz.
Het systeem werkt eenvoudig, als een robot bijvoorbeeld de URL wil bezoeken: https://www.ejemplode.com/ voordat je dit doet, check out https://www.ejemplode.com/robots.txt en de inhoud ervan staat vast. Via de robots.txt-inhoud worden bots geïnstrueerd om bepaalde bestanden niet te indexeren of te openen. Het kan specifiek zijn, bijvoorbeeld dat bepaalde bots niet binnenkomen, maar andere wel.
Er zijn twee belangrijke overwegingen bij het gebruik van /robots.txt:
- Robots kunnen uw robots.txt negeren. Vooral malwarebots die het web scannen op kwetsbaarheden en e-mailadresscanners die worden gebruikt om spam te verzenden.
- Het robots.txt-bestand is openbaar beschikbaar. Iedereen kan de inhoud van je robots.txt zien
Gebruik robots.txt dus niet om informatie te verbergen. Gebruik het liever zo dat bepaalde inhoud op uw site niet wordt geïndexeerd.
Hier zijn verschillende voorbeelden van robots.txt met hun uitleg
Code:User-agent: * Niet toestaan: /
Deze code zorgt ervoor dat alle robots geen toegang hebben tot inhoud op de site. De parameter User-agent is om de robots te specificeren, in dit geval met de asterisk, we verwijzen naar ze allemaal. En Disallow is zodat ze geen toegang hebben. In dit geval, door een Disallow in / uit te voeren, hebben de robots nergens toegang toe.
Code:User-agent: * Niet toestaan:
Aan de andere kant, als we Disallow leeg laten, gebeurt er niets. Robots hebben toegang tot alle inhoud.
Nu nog een voorbeeld
Code:User-agent: * Niet toestaan: /contact.html. Niet toestaan: /file.html
Deze volgende code zorgt ervoor dat alle robots niet via contact.html of file.html gaan
Dan hebben we dit andere voorbeeld dat geen enkele robot door de site laat gaan, behalve de Google-bot
Code:User-agent: Google. Niet toestaan: User-agent: *
Niet toestaan: /