Esimerkki Robots.txt-tiedostosta
Html / / July 04, 2021
Verkkosivustojen omistajat antavat /robots.txt -tiedoston avulla ohjeet sivustostaan hakukoneiden, kuten Google, Yahoo, Bing, robotteille.
Järjestelmä toimii yksinkertaisesti, jos robotti haluaa käydä URL-osoitteessa esimerkiksi: https://www.ejemplode.com/ ennen kuin teet niin, tarkista https://www.ejemplode.com/robots.txt ja sen sisältö on kiinteä. Robots.txt-sisällön kautta botteja kehotetaan olemaan indeksoimatta tai käyttämättä tiettyjä tiedostoja. Voi esimerkiksi olla, että tietyt botit eivät tule sisään, mutta toiset.
/Robots.txt: n käytössä on kaksi tärkeää näkökohtaa:
- Robotit voivat ohittaa robots.txt-tiedostosi. Erityisesti haittaohjelmarobotit, jotka etsivät verkosta haavoittuvuuksia, ja sähköpostiosoiteskannerit, joita käytetään roskapostin lähettämiseen.
- Robots.txt-tiedosto on julkisesti saatavilla. Kuka tahansa voi nähdä robots.txt-tiedostosi sisällön
Älä siis piilota tietoja robots.txt-tiedostolla. Käytä sitä pikemminkin, jotta tiettyä sivustosi sisältöä ei indeksoida.
Tässä on useita robots.txt-esimerkkejä selityksineen
Koodi:Käyttäjä agentti: * Estä: /
Tämän koodin ansiosta kaikki robotit eivät voi käyttää mitään sivuston sisältöä. User-agent-parametrin on määritellä robotit, tässä tapauksessa tähdellä, osoitamme ne kaikki. Ja Disallow on niin, että he eivät pääse käsiksi. Tässä tapauksessa robotit eivät pääse mihinkään, kun teet Disallow in / -toiminnon.
Koodi:Käyttäjä agentti: * Estä:
Toisaalta, jos jätämme kiellon tyhjäksi, mitään ei tapahdu. Robotit voivat käyttää mitä tahansa sisältöä.
Nyt toinen esimerkki
Koodi:Käyttäjä agentti: * Estä: /contact.html. Estä: /file.html
Tämä seuraava koodi tekee siitä, että kaikki robotit eivät käy contact.html- tai file.html-tiedostojen läpi
Sitten meillä on tämä toinen esimerkki, joka ei salli robotin kulkemista sivuston kautta, paitsi Google-botti
Koodi:Käyttäjäagentti: Google. Disallow: User-agent: *
Estä: /