Robots.txt 예제
Html / / November 13, 2021
웹사이트 소유자는 /robots.txt 파일을 사용하여 Google, Yahoo, Bing 등과 같은 검색 엔진의 봇에게 사이트에 대한 지침을 제공합니다.
로봇이 다음과 같은 URL을 방문하려는 경우 시스템은 간단하게 작동합니다. https://www.ejemplode.com/ 하기 전에 확인하십시오 https://www.ejemplode.com/robots.txt 그 내용이 고정되어 있습니다. robots.txt 콘텐츠를 통해 봇은 특정 파일을 인덱싱하거나 액세스하지 않도록 지시합니다. 예를 들어 특정 봇은 들어가지 않고 다른 봇은 들어간다는 것이 구체적일 수 있습니다.
/robots.txt를 사용할 때 두 가지 중요한 고려 사항이 있습니다.
- 로봇은 robots.txt를 무시할 수 있습니다. 특히 웹에서 취약점을 검색하는 맬웨어 봇과 스팸을 보내는 데 사용되는 이메일 주소 스캐너.
- robots.txt 파일은 공개적으로 사용 가능합니다. 누구나 robots.txt의 콘텐츠를 볼 수 있습니다.
따라서 정보를 숨기기 위해 robots.txt를 사용하지 마십시오. 대신 사이트의 특정 콘텐츠가 색인되지 않도록 사용하십시오.
다음은 설명이 포함된 몇 가지 예시 robots.txt입니다.
암호:사용자 에이전트: * 허용하지 않음: /
이 코드는 모든 로봇이 사이트의 콘텐츠에 액세스할 수 없도록 합니다. User-agent 매개변수는 로봇을 지정하는 것입니다. 이 경우 별표로 모든 로봇을 가리킵니다. 그리고 Disallow는 액세스할 수 없도록 합니다. 이 경우 /에서 Disallow를 수행하면 로봇이 어디에도 액세스할 수 없습니다.
암호:사용자 에이전트: * 허용하지 않음:
반면에 Disallow를 비워두면 아무 일도 일어나지 않습니다. 로봇은 모든 콘텐츠에 액세스할 수 있습니다.
이제 또 다른 예
암호:사용자 에이전트: * 허용하지 않음: /contact.html. 허용하지 않음: /file.html
다음 코드는 모든 로봇이 contact.html 또는 file.html을 거치지 않도록 합니다.
그런 다음 Google 봇을 제외하고 로봇이 사이트를 통과하지 못하게 하는 다른 예가 있습니다.
암호:사용자 에이전트: Google. 허용하지 않음: 사용자 에이전트: *
허용하지 않음: /