ตัวอย่าง Robots.txt
Html / / July 04, 2021
เจ้าของเว็บไซต์ใช้ไฟล์ /robots.txt เพื่อให้คำแนะนำเกี่ยวกับเว็บไซต์ของตนแก่บอทจากเครื่องมือค้นหา เช่น Google, Yahoo, Bing เป็นต้น
ระบบทำงานง่าย หากโรบ็อตต้องการเยี่ยมชม URL เช่น: https://www.ejemplode.com/ ก่อนดำเนินการตรวจสอบ https://www.ejemplode.com/robots.txt และเนื้อหาได้รับการแก้ไข ผ่านเนื้อหา robots.txt บอทได้รับคำสั่งไม่ให้สร้างดัชนีหรือเข้าถึงไฟล์บางไฟล์ สามารถเจาะจงได้ ตัวอย่างเช่น บ็อตบางตัวไม่เข้า แต่บางตัวทำ
มีข้อควรพิจารณาที่สำคัญสองประการเมื่อใช้ /robots.txt:
- โรบ็อตสามารถละเว้น robots.txt ของคุณได้ โดยเฉพาะบอทมัลแวร์ที่สแกนหาช่องโหว่ในเว็บ และเครื่องสแกนที่อยู่อีเมลที่ใช้ในการส่งสแปม
- ไฟล์ robots.txt เป็นแบบสาธารณะ ทุกคนสามารถเห็นเนื้อหาของ robots.txt. ของคุณ
ดังนั้นอย่าใช้ robots.txt เพื่อซ่อนข้อมูล แต่ควรใช้เพื่อไม่ให้เนื้อหาบางอย่างในเว็บไซต์ของคุณได้รับการจัดทำดัชนี
ต่อไปนี้คือตัวอย่างต่างๆ ของ robots.txt พร้อมคำอธิบาย
รหัส:ตัวแทนผู้ใช้: * ไม่อนุญาต: /
รหัสนี้ทำให้โรบ็อตทั้งหมดไม่สามารถเข้าถึงเนื้อหาใด ๆ บนไซต์ได้ พารามิเตอร์ User-agent คือการระบุหุ่นยนต์ ในกรณีนี้ด้วยเครื่องหมายดอกจัน เราจะชี้ไปที่หุ่นยนต์ทั้งหมด และ Disallow คือการที่พวกเขาไม่สามารถเข้าถึงได้ ในกรณีนี้ การทำ Disallow in / หุ่นยนต์จะไม่สามารถเข้าถึงได้จากทุกที่
รหัส:ตัวแทนผู้ใช้: * ไม่อนุญาต:
ในทางกลับกัน ถ้าเราปล่อย Disallow ว่างไว้ จะไม่มีอะไรเกิดขึ้น หุ่นยนต์สามารถเข้าถึงเนื้อหาใด ๆ
อีกตัวอย่างหนึ่ง
รหัส:ตัวแทนผู้ใช้: * ไม่อนุญาต: /contact.html ไม่อนุญาต: /file.html
รหัสต่อไปนี้ทำให้โรบ็อตทั้งหมดไม่ผ่าน contact.html หรือ file.html
จากนั้นเรามีตัวอย่างอื่นที่ทำให้ไม่มีโรบ็อตผ่านไซต์ได้ ยกเว้นบ็อตของ Google Google
รหัส:ตัวแทนผู้ใช้: Google ไม่อนุญาต: ตัวแทนผู้ใช้: *
ไม่อนุญาต: /