Robots.txt-esimerkki
Html / / November 13, 2021
Verkkosivustojen omistajat käyttävät /robots.txt-tiedostoa antaakseen sivustoaan koskevia ohjeita roboteille hakukoneista, kuten Googlesta, Yahoosta, Bingistä jne.
Järjestelmä toimii yksinkertaisesti, jos robotti haluaa käydä URL-osoitteessa esimerkiksi: https://www.ejemplode.com/ Ennen kuin teet niin, tarkista https://www.ejemplode.com/robots.txt ja sen sisältö on kiinteä. Robots.txt-sisällön kautta botteja kehotetaan olemaan indeksoimatta tai käyttämättä tiettyjä tiedostoja. Se voi olla esimerkiksi tiettyä, että tietyt robotit eivät pääse sisään, mutta toiset tulevat.
On kaksi tärkeää seikkaa käytettäessä /robots.txt-tiedostoa:
- Robotit voivat ohittaa robots.txt-tiedoston. Erityisesti haittaohjelmabotit, jotka etsivät verkosta haavoittuvuuksia, ja roskapostin lähettämiseen käytetyt sähköpostiosoitteiden skannerit.
- Robots.txt-tiedosto on julkisesti saatavilla. Kuka tahansa voi nähdä robots.txt-tiedostosi sisällön
Älä siis käytä robots.txt-tiedostoa tietojen piilottamiseen. Käytä sitä mieluummin, jotta tiettyä sivustosi sisältöä ei indeksoida.
Tässä on useita esimerkkejä robots.txt-tiedostosta selityksineen
Koodi:Käyttäjä agentti: * Estä: /
Tämä koodi estää kaikki robotit pääsemään mihinkään sivuston sisältöön. User-agent-parametrilla määritellään robotit, tässä tapauksessa tähdellä osoitamme niitä kaikkia. Ja Disallow on, jotta he eivät pääse käsiksi. Tässä tapauksessa tekemällä Disallow in /, robotit eivät pääse minnekään.
Koodi:Käyttäjä agentti: * Estä:
Toisaalta, jos jätämme Disallow-kohdan tyhjäksi, mitään ei tapahdu. Robotit voivat käyttää mitä tahansa sisältöä.
Nyt toinen esimerkki
Koodi:Käyttäjä agentti: * Disallow: /contact.html. Disallow: /file.html
Tämä seuraava koodi tekee siitä, että kaikki robotit eivät käy läpi contact.html tai file.html
Sitten meillä on tämä toinen esimerkki, jonka mukaan mikään robotti ei voi kulkea sivuston läpi, paitsi Google-botti
Koodi:User-agent: Google. Disallow: User-agent: *
Estä: /