Παράδειγμα Robots.txt
Html / / November 13, 2021
Οι κάτοχοι ιστοτόπων χρησιμοποιούν το αρχείο /robots.txt για να δώσουν οδηγίες σχετικά με τον ιστότοπό τους σε bots από μηχανές αναζήτησης όπως το Google, το Yahoo, το Bing κ.λπ.
Το σύστημα λειτουργεί απλά, εάν ένα ρομπότ θέλει να επισκεφτεί τη διεύθυνση URL για παράδειγμα: https://www.ejemplode.com/ Πριν το κάνετε, ελέγξτε έξω https://www.ejemplode.com/robots.txt και το περιεχόμενό του είναι σταθερό. Μέσω του περιεχομένου robots.txt, τα ρομπότ λαμβάνουν οδηγίες να μην δημιουργούν ευρετήριο ή πρόσβαση σε ορισμένα αρχεία. Μπορεί να είναι συγκεκριμένο, για παράδειγμα, ότι ορισμένα ρομπότ δεν μπαίνουν, αλλά άλλα μπαίνουν.
Υπάρχουν δύο σημαντικά ζητήματα όταν χρησιμοποιείτε το /robots.txt:
- Τα ρομπότ μπορούν να αγνοήσουν το robots.txt. Ειδικά τα ρομπότ κακόβουλου λογισμικού που σαρώνουν τον ιστό για τρωτά σημεία και οι σαρωτές διευθύνσεων email που χρησιμοποιούνται για την αποστολή ανεπιθύμητων μηνυμάτων.
- Το αρχείο robots.txt είναι δημόσια διαθέσιμο. Οποιοσδήποτε μπορεί να δει το περιεχόμενο του robots.txt σας
Επομένως, μην χρησιμοποιείτε το robots.txt για να αποκρύψετε πληροφορίες. Αντίθετα, χρησιμοποιήστε το έτσι ώστε συγκεκριμένο περιεχόμενο στον ιστότοπό σας να μην ευρετηριάζεται.
Ακολουθούν πολλά παραδείγματα robots.txt με την εξήγησή τους
Κώδικας:Πράκτορας χρήστη: * Απαγόρευση: /
Αυτός ο κώδικας κάνει όλα τα ρομπότ να μην έχουν πρόσβαση σε οποιοδήποτε περιεχόμενο στον ιστότοπο. Η παράμετρος User-agent είναι να καθορίσετε τα ρομπότ, σε αυτήν την περίπτωση με τον αστερίσκο, τα δείχνουμε όλα. Και το Disallow είναι έτσι ώστε να μην μπορούν να έχουν πρόσβαση. Σε αυτήν την περίπτωση, κάνοντας μια Απαγόρευση στο /, τα ρομπότ δεν μπορούν να έχουν πρόσβαση πουθενά.
Κώδικας:Πράκτορας χρήστη: * Απαγορεύω:
Από την άλλη, αν αφήσουμε κενό το Disallow, δεν γίνεται τίποτα. Τα ρομπότ μπορούν να έχουν πρόσβαση σε οποιοδήποτε περιεχόμενο.
Τώρα ένα άλλο παράδειγμα
Κώδικας:Πράκτορας χρήστη: * Απαγόρευση: /contact.html. Απαγόρευση: /file.html
Αυτός ο ακόλουθος κώδικας κάνει όλα τα ρομπότ να μην περνούν από το contact.html ή το file.html
Στη συνέχεια, έχουμε αυτό το άλλο παράδειγμα που δεν επιτρέπει σε κανένα ρομπότ να περάσει από τον ιστότοπο, εκτός από το ρομπότ Google
Κώδικας:Χρήστης-πράκτορας: Google. Απαγόρευση: User-agent: *
Απαγόρευση: /