Robots.txt 예
Html / / July 04, 2021
웹 사이트 소유자는 /robots.txt 파일을 사용하여 Google, Yahoo, Bing 등과 같은 검색 엔진의 봇에게 사이트에 대한 지침을 제공합니다.
로봇이 URL을 방문하려는 경우 시스템은 간단하게 작동합니다. 예를 들면 다음과 같습니다. https://www.ejemplode.com/ 그렇게하기 전에 https://www.ejemplode.com/robots.txt 내용이 고정되어 있습니다. robots.txt 콘텐츠를 통해 봇은 색인을 생성하거나 특정 파일에 액세스하지 않도록 지시받습니다. 예를 들어 특정 봇은 진입하지 않지만 다른 봇은 진입하는 것이 구체적 일 수 있습니다.
/robots.txt를 사용할 때 두 가지 중요한 고려 사항이 있습니다.
- 로봇은 robots.txt를 무시할 수 있습니다. 특히 웹에서 취약점을 검색하는 맬웨어 봇과 스팸을 보내는 데 사용되는 이메일 주소 스캐너입니다.
- robots.txt 파일은 공개적으로 사용할 수 있습니다. 누구나 robots.txt의 콘텐츠를 볼 수 있습니다.
따라서 정보를 숨기기 위해 robots.txt를 사용하지 마십시오. 오히려 사이트의 특정 콘텐츠가 인덱싱되지 않도록 사용하십시오.
다음은 설명이 포함 된 몇 가지 robots.txt 예제입니다.
암호:사용자 에이전트: * 금지: /
이 코드는 모든 로봇이 사이트의 콘텐츠에 액세스 할 수 없도록합니다. User-agent 매개 변수는 로봇을 지정하는 것입니다.이 경우 별표가있는 로봇은 모두를 가리 킵니다. Disallow는 액세스 할 수 없도록합니다. 이 경우 /에서 Disallow를 수행하면 로봇은 어디에도 액세스 할 수 없습니다.
암호:사용자 에이전트: * 금지 :
반면에 Disallow를 비워두면 아무 일도 일어나지 않습니다. 로봇은 모든 콘텐츠에 액세스 할 수 있습니다.
이제 또 다른 예
암호:사용자 에이전트: * Disallow: /contact.html. 금지: /file.html
다음 코드는 모든 로봇이 contact.html 또는 file.html을 거치지 않도록합니다.
그런 다음 Google 봇을 제외하고 로봇이 사이트를 통과하지 못하도록하는 다른 예가 있습니다.
암호:사용자 에이전트: Google. Disallow: User-agent: *
금지: /