Exemplo de Robots.txt
Html / / November 13, 2021
Os proprietários de sites usam o arquivo /robots.txt para fornecer instruções sobre seus sites aos bots de mecanismos de pesquisa como Google, Yahoo, Bing, etc.
O sistema funciona de forma simples, se um robô deseja visitar a URL, por exemplo: https://www.ejemplode.com/ Antes de fazer isso, verifique https://www.ejemplode.com/robots.txt e seu conteúdo é fixo. Por meio do conteúdo do robots.txt, os bots são instruídos a não indexar ou acessar certos arquivos. Pode ser específico, por exemplo, que certos bots não entrem, mas outros entrem.
Existem duas considerações importantes ao usar /robots.txt:
- Os robôs podem ignorar seu robots.txt. Especialmente os bots de malware que fazem a varredura na web em busca de vulnerabilidades e os scanners de endereços de e-mail usados para enviar spam.
- O arquivo robots.txt está disponível publicamente. Qualquer pessoa pode ver o conteúdo do seu robots.txt
Portanto, não use o robots.txt para ocultar informações. Em vez disso, use-o para que determinado conteúdo do seu site não seja indexado.
Aqui estão vários exemplos de robots.txt com sua explicação
Código:Agente de usuário: * Disallow: /
Este código impede que todos os robôs acessem qualquer conteúdo do site. O parâmetro User-agent serve para especificar os robôs, neste caso com o asterisco, apontamos para todos eles. E Disallow é para que eles não possam acessar. Nesse caso, fazendo um Disallow em /, os robôs não podem acessar de lugar nenhum.
Código:Agente de usuário: * Disallow:
Por outro lado, se deixarmos o Disallow vazio, nada acontecerá. Os robôs podem acessar qualquer conteúdo.
Agora outro exemplo
Código:Agente de usuário: * Disallow: /contact.html. Disallow: /file.html
Este código a seguir, faz com que todos os robôs não passem por contact.html ou file.html
Então temos este outro exemplo que não permite que nenhum robô passe pelo site, exceto para o bot do Google
Código:User-agent: Google. Disallow: User-agent: *
Disallow: /