Esempio Robots.txt
Html / / November 13, 2021
I proprietari di siti web utilizzano il file /robots.txt per fornire istruzioni sul proprio sito ai bot dei motori di ricerca come Google, Yahoo, Bing, ecc.
Il sistema funziona in modo semplice, se un robot vuole visitare l'URL, ad esempio: https://www.ejemplode.com/ Prima di farlo, dai un'occhiata https://www.ejemplode.com/robots.txt e il suo contenuto è fisso. Attraverso il contenuto di robots.txt, ai bot viene richiesto di non indicizzare o accedere a determinati file. Può essere specifico, ad esempio, che alcuni bot non entrino, ma altri sì.
Ci sono due considerazioni importanti quando si usa /robots.txt:
- I robot possono ignorare il tuo robots.txt. Soprattutto bot malware che scansionano il Web alla ricerca di vulnerabilità e scanner di indirizzi e-mail utilizzati per inviare spam.
- Il file robots.txt è disponibile pubblicamente. Chiunque può vedere il contenuto del tuo robots.txt
Quindi non utilizzare robots.txt per nascondere le informazioni. Piuttosto, usalo in modo che alcuni contenuti del tuo sito non vengano indicizzati.
Ecco alcuni esempi di robots.txt con la loro spiegazione
Codice:Agente utente: * Non consentire: /
Questo codice impedisce a tutti i robot di accedere a qualsiasi contenuto del sito. Il parametro User-agent serve a specificare i robot, in questo caso con l'asterisco indichiamo tutti loro. E Disallow è così che non possono accedere. In questo caso, facendo un Disallow in /, i robot non possono accedere da nessuna parte.
Codice:Agente utente: * Non consentire:
D'altra parte, se lasciamo vuoto il Disallow, non succede nulla. I robot possono accedere a qualsiasi contenuto.
Ora un altro esempio
Codice:Agente utente: * Non consentire: /contact.html. Non consentire: /file.html
Questo codice seguente fa in modo che tutti i robot non passino attraverso contact.html o file.html
Poi abbiamo quest'altro esempio che non permette a nessun robot di passare attraverso il sito, ad eccezione del bot di Google
Codice:Agente utente: Google. Non consentire: agente utente: *
Non consentire: /