مثال على ملف robots.txt
لغة البرمجة / / November 13, 2021
يستخدم مالكو مواقع الويب ملف /robots.txt لإعطاء تعليمات حول موقعهم إلى برامج الروبوت من محركات البحث مثل Google و Yahoo و Bing وما إلى ذلك.
يعمل النظام بشكل بسيط ، إذا أراد الروبوت زيارة عنوان URL على سبيل المثال: https://www.ejemplode.com/ قبل القيام بذلك ، تحقق من https://www.ejemplode.com/robots.txt ومحتواه ثابت. من خلال محتوى ملف robots.txt ، يتم توجيه برامج الروبوت بعدم فهرسة ملفات معينة أو الوصول إليها. يمكن أن يكون محددًا ، على سبيل المثال ، أن بعض الروبوتات لا تدخل ، لكن البعض الآخر يفعل ذلك.
هناك نوعان من الاعتبارات الهامة عند استخدام /robots.txt:
- يمكن أن تتجاهل الروبوتات ملف robots.txt الخاص بك. خاصة برامج روبوت البرامج الضارة التي تفحص الويب بحثًا عن نقاط الضعف ، وأدوات فحص عناوين البريد الإلكتروني المستخدمة لإرسال البريد العشوائي.
- ملف robots.txt متاح للجمهور. يمكن لأي شخص مشاهدة محتوى ملف robots.txt الخاص بك
لذلك لا تستخدم ملف robots.txt لإخفاء المعلومات. بدلاً من ذلك ، استخدمه حتى لا تتم فهرسة محتوى معين على موقعك.
فيما يلي عدة أمثلة لملف robots.txt مع شرحها
شفرة:وكيل المستخدم: * عدم السماح: /
هذا الرمز يجعل جميع الروبوتات غير قادرة على الوصول إلى أي محتوى على الموقع. المعلمة User-agent هي تحديد الروبوتات ، وفي هذه الحالة بعلامة النجمة ، نشير إليها جميعًا. و Disallow هو حتى لا يتمكنوا من الوصول. في هذه الحالة ، عند إجراء Disallow in / ، لا يمكن للروبوتات الوصول إلى أي مكان.
شفرة:وكيل المستخدم: * عدم السماح:
من ناحية أخرى ، إذا تركنا Disallow فارغًا ، فلن يحدث شيء. يمكن للروبوتات الوصول إلى أي محتوى.
الآن مثال آخر
شفرة:وكيل المستخدم: * Disallow: /contact.html. Disallow: /file.html
هذه الشفرة التالية تجعل جميع الروبوتات لا تمر عبر contact.html أو file.html
ثم لدينا هذا المثال الآخر الذي لا يسمح لأي روبوت بالمرور عبر الموقع ، باستثناء برنامج Google bot
شفرة:وكيل المستخدم: جوجل. عدم السماح: وكيل المستخدم: *
عدم السماح: /