Παράδειγμα Robots.txt
Html / / July 04, 2021
Οι κάτοχοι ιστότοπων χρησιμοποιούν το αρχείο /robots.txt για να δώσουν οδηγίες σχετικά με τον ιστότοπό τους σε bots από μηχανές αναζήτησης όπως το Google, το Yahoo, το Bing κ.λπ.
Το σύστημα λειτουργεί απλό, εάν ένα ρομπότ θέλει να επισκεφτεί τη διεύθυνση URL για παράδειγμα: https://www.ejemplode.com/ Πριν το κάνετε, ρίξτε μια ματιά https://www.ejemplode.com/robots.txt και το περιεχόμενό του είναι σταθερό. Μέσω του περιεχομένου robots.txt, τα bots καλούνται να μην ευρετηριάσουν ή να αποκτήσουν πρόσβαση σε συγκεκριμένα αρχεία. Μπορεί να είναι συγκεκριμένο, για παράδειγμα, ότι ορισμένα bots δεν εισέρχονται, αλλά άλλα εισέρχονται.
Υπάρχουν δύο σημαντικές εκτιμήσεις κατά τη χρήση του /robots.txt:
- Τα ρομπότ μπορούν να αγνοήσουν το robots.txt. Ειδικά bots κακόβουλου λογισμικού που σαρώνουν τον ιστό για ευπάθειες και σαρωτές διευθύνσεων email που χρησιμοποιούνται για την αποστολή ανεπιθύμητων μηνυμάτων.
- Το αρχείο robots.txt είναι διαθέσιμο στο κοινό. Όλοι μπορούν να δουν το περιεχόμενο του robots.txt
Μην χρησιμοποιείτε λοιπόν το robots.txt για να αποκρύψετε πληροφορίες. Αντίθετα, χρησιμοποιήστε το έτσι ώστε συγκεκριμένο περιεχόμενο στον ιστότοπό σας να μην ευρετηριαστεί.
Ακολουθούν πολλά παραδείγματα robots.txt με την εξήγησή τους
Κώδικας:Αντιπρόσωπος χρήστη: * Απαγόρευση: /
Αυτός ο κωδικός κάνει όλα τα ρομπότ να μην έχουν πρόσβαση σε οποιοδήποτε περιεχόμενο στον ιστότοπο. Η παράμετρος User-agent είναι να καθορίσει τα ρομπότ, σε αυτήν την περίπτωση με τον αστερίσκο, επισημαίνουμε όλα αυτά. Και το Disallow είναι έτσι ώστε να μην έχουν πρόσβαση. Σε αυτήν την περίπτωση, κάνοντας μια απαγόρευση στο /, τα ρομπότ δεν έχουν πρόσβαση οπουδήποτε.
Κώδικας:Αντιπρόσωπος χρήστη: * Απαγορεύω:
Από την άλλη πλευρά, εάν αφήσουμε το Disallow κενό, δεν συμβαίνει τίποτα. Τα ρομπότ έχουν πρόσβαση σε οποιοδήποτε περιεχόμενο.
Ένα άλλο παράδειγμα
Κώδικας:Αντιπρόσωπος χρήστη: * Απαγόρευση: /contact.html. Απαγόρευση: /file.html
Αυτός ο ακόλουθος κώδικας, καθιστά όλα τα ρομπότ δεν περνούν από το contact.html ή το αρχείο.html
Έχουμε λοιπόν αυτό το άλλο παράδειγμα που δεν επιτρέπει σε κάποιο ρομπότ να περάσει από τον ιστότοπο, εκτός από το Google bot
Κώδικας:Αντιπρόσωπος χρήστη: Google. Απαγόρευση: User-agent: *
Απαγόρευση: /