דוגמה של Robots.txt
Html / / November 13, 2021
בעלי אתרים משתמשים בקובץ /robots.txt כדי לתת הוראות לגבי האתר שלהם לבוטים ממנועי חיפוש כגון Google, Yahoo, Bing וכו'.
המערכת עובדת פשוט, אם רובוט רוצה לבקר בכתובת האתר למשל: https://www.ejemplode.com/ לפני שתעשה זאת, בדוק https://www.ejemplode.com/robots.txt ותוכנו קבוע. באמצעות תוכן robots.txt, הבוטים מקבלים הוראה לא להוסיף לאינדקס או לגשת לקבצים מסוימים. זה יכול להיות ספציפי, למשל, שבוטים מסוימים לא נכנסים, אבל אחרים כן.
ישנם שני שיקולים חשובים בעת השימוש ב-/robots.txt:
- רובוטים יכולים להתעלם מה-robots.txt שלך. במיוחד בוטים של תוכנות זדוניות שסורקות את האינטרנט לאיתור נקודות תורפה, וסורקי כתובות דואר אלקטרוני המשמשים לשליחת דואר זבל.
- קובץ robots.txt זמין לציבור. כל אחד יכול לראות את התוכן של robots.txt שלך
אז אל תשתמש ב-robots.txt כדי להסתיר מידע. במקום זאת, השתמש בו כדי שתוכן מסוים באתר שלך לא יתווסף לאינדקס.
הנה כמה דוגמאות של robots.txt עם ההסבר שלהם
קוד:סוכן משתמש: * אסור: /
קוד זה גורם לכל הרובוטים לא לגשת לתוכן כלשהו באתר. הפרמטר User-agent הוא לציין את הרובוטים, במקרה זה עם הכוכבית, אנו מצביעים על כולם. ו-Disallow הוא כדי שהם לא יוכלו לגשת. במקרה זה, ביצוע Disallow ב- /, הרובוטים אינם יכולים לגשת לשום מקום.
קוד:סוכן משתמש: * אסור:
מצד שני, אם נשאיר את ה-Disallow ריק, שום דבר לא יקרה. רובוטים יכולים לגשת לכל תוכן.
עכשיו עוד דוגמה
קוד:סוכן משתמש: * Disallow: /contact.html. Disallow: /file.html
הקוד הבא הזה גורם לכך שכל הרובוטים לא עוברים דרך contact.html או file.html
ואז יש לנו דוגמה אחרת שמאפשרת לאף רובוט לעבור באתר, מלבד הבוט של גוגל
קוד:סוכן משתמש: גוגל. Disallow: User-agent: *
אסור: /