Robots.txt-Beispiel
Html Datei / / July 04, 2021
Websitebesitzer verwenden die Datei /robots.txt, um Bots von Suchmaschinen wie Google, Yahoo, Bing usw. Anweisungen zu ihrer Website zu geben.
Das System funktioniert einfach, wenn ein Roboter zum Beispiel die URL besuchen möchte: https://www.ejemplode.com/ Bevor Sie dies tun, überprüfen Sie es https://www.ejemplode.com/robots.txt und sein Inhalt ist festgelegt. Durch den Inhalt der robots.txt werden Bots angewiesen, bestimmte Dateien nicht zu indizieren oder darauf zuzugreifen. Es kann spezifisch sein, zum Beispiel, dass bestimmte Bots nicht eintreten, andere jedoch.
Bei der Verwendung von /robots.txt sind zwei wichtige Aspekte zu beachten:
- Robots können Ihre robots.txt-Datei ignorieren. Vor allem Malware-Bots, die das Web nach Schwachstellen durchsuchen, und E-Mail-Adressscanner, die zum Versenden von Spam verwendet werden.
- Die Datei robots.txt ist öffentlich verfügbar. Jeder kann den Inhalt Ihrer robots.txt sehen
Verwenden Sie also keine robots.txt, um Informationen zu verbergen. Verwenden Sie es vielmehr, damit bestimmte Inhalte auf Ihrer Website nicht indiziert werden.
Hier sind einige Beispiele für robots.txt mit ihrer Erklärung
Code:User-Agent: * Nicht zulassen: /
Dieser Code verhindert, dass alle Robots auf Inhalte der Website zugreifen können. Der Parameter User-agent soll die Roboter angeben, in diesem Fall mit dem Sternchen, wir zeigen auf alle. Und Disallow ist so, dass sie nicht darauf zugreifen können. In diesem Fall können die Roboter bei einem Disallow in / nirgendwo zugreifen.
Code:User-Agent: * Verbieten:
Auf der anderen Seite, wenn wir das Disallow leer lassen, passiert nichts. Roboter können auf alle Inhalte zugreifen.
Jetzt noch ein Beispiel
Code:User-Agent: * Nicht zulassen: /contact.html. Nicht zulassen: /file.html
Dieser folgende Code sorgt dafür, dass nicht alle Robots über contact.html oder file.html gehen
Dann haben wir dieses andere Beispiel, das es keinem Roboter erlaubt, die Site zu passieren, außer dem Google-Bot
Code:User-Agent: Google. Verbieten: User-Agent: *
Nicht zulassen: /