Δείγμα αρχείων robots.txt για τον ιστότοπό σας

Ένα αρχείο robots.txt που είναι αποθηκευμένο στη ρίζα του ιστότοπού σας θα αναφέρει σε ρομπότ ιστού, όπως αράχνες μηχανών αναζήτησης, σε ποιους καταλόγους και αρχεία επιτρέπεται να ανιχνεύσουν. Είναι εύκολο να χρησιμοποιήσετε ένα αρχείο robots.txt, αλλά υπάρχουν μερικά πράγματα που πρέπει να θυμάστε:

  1. Τα ρομπότ ρολογιών μαύρου καπέλου θα αγνοήσουν το αρχείο robots.txt. Οι πιο συνηθισμένοι τύποι είναι τα bots malware και τα ρομπότ που αναζητούν διευθύνσεις ηλεκτρονικού ταχυδρομείου για τη συγκομιδή.
  2. Μερικοί νέοι προγραμματιστές θα γράψουν ρομπότ που αγνοούν το αρχείο robots.txt. Αυτό συνήθως γίνεται κατά λάθος.
  1. Οποιοσδήποτε μπορεί να δει το αρχείο robots.txt. Ονομάζονται πάντα robots.txt και αποθηκεύονται πάντα στη ρίζα του ιστότοπου.
  2. Τέλος, εάν κάποιος συνδέεται με ένα αρχείο ή κατάλογο που εξαιρείται από το αρχείο robots.txt από μια σελίδα που δεν αποκλείεται από το αρχείο robots.txt, οι μηχανές αναζήτησης ίσως το βρουν ούτως ή άλλως.

Μην χρησιμοποιείτε αρχεία robots.txt για να αποκρύψετε κάτι σημαντικό. Αντ 'αυτού, θα πρέπει να θέσετε σημαντικές πληροφορίες πίσω από ασφαλή κωδικούς πρόσβασης ή να το αφήσετε εντελώς από το διαδίκτυο.

Τρόπος χρήσης αυτών των αρχείων δείγματος

Αντιγράψτε το κείμενο από το δείγμα που είναι πιο κοντά σε αυτό που θέλετε να κάνετε και επικολλήστε το στο αρχείο robots.txt. Αλλάξτε το όνομα του ρομπότ, του καταλόγου και των αρχείων, ώστε να ταιριάζει με την προτιμώμενη διαμόρφωση.

Δύο βασικά αρχεία Robots.txt

Χρήστης-πράκτορας: *
Disallow: /

Αυτό το αρχείο λέει ότι κάθε ρομπότ (χρήστη-πράκτορας: *) που αποκτά πρόσβαση θα πρέπει να αγνοεί κάθε σελίδα του ιστότοπου (Disallow: /).

Χρήστης-πράκτορας: *
Απαγορεύω:

Αυτό το αρχείο λέει ότι κάθε ρομπότ (User-agent: *) που έχει πρόσβαση σε αυτό επιτρέπεται να βλέπει κάθε σελίδα του ιστότοπου (Disallow:).

Μπορείτε επίσης να το κάνετε αυτό αφήνοντας το αρχείο robots.txt κενό ή δεν έχετε καθόλου στον ιστότοπό σας.

Προστατέψτε συγκεκριμένους καταλόγους από ρομπότ

Χρήστης-πράκτορας: *
Disallow: / cgi-bin /
Disallow: / temp /

Αυτό το αρχείο λέει ότι κάθε ρομπότ (User-agent: *) που αποκτά πρόσβαση θα πρέπει να αγνοεί τους καταλόγους / cgi-bin / και / temp / (Disallow: / cgi-bin / Disallow: / temp).

Προστατέψτε συγκεκριμένες σελίδες από ρομπότ

Χρήστης-πράκτορας: *
Disallow: /jenns-stuff.htm
Disallow: /private.php

Αυτό το αρχείο λέει ότι κάθε ρομπότ (User-agent: *) που αποκτά πρόσβαση θα πρέπει να αγνοεί τα αρχεία /jenns-stuff.htm και /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Αποτρέψτε την πρόσβαση ενός συγκεκριμένου ρομπότ στον ιστότοπό σας

User-agent: Lycos / xx
Disallow: /

Αυτό το αρχείο λέει ότι το bot Lycos (User-agent: Lycos / xx) δεν επιτρέπεται η πρόσβαση οπουδήποτε στον ιστότοπο (Disallow: /).

Επιτρέψτε μόνο μία συγκεκριμένη πρόσβαση ρομπότ

Χρήστης-πράκτορας: *
Disallow: /
User-agent: Googlebot
Απαγορεύω:

Αυτό το αρχείο πρώτα απενεργοποιεί όλα τα ρομπότ όπως μας κάναμε παραπάνω και στη συνέχεια αφήνει ρητά στο Googlebot (User-agent: Googlebot) πρόσβαση σε όλα (Disallow:).

Συνδυάστε πολλαπλές γραμμές για να λάβετε ακριβώς τις εξαιρέσεις που θέλετε

Παρόλο που είναι καλύτερο να χρησιμοποιήσετε μια γραμμή αποκλειστικής χρήσης χρηστών, όπως το User-agent: *, μπορείτε να είστε όσο πιο συγκεκριμένοι θέλετε. Θυμηθείτε ότι τα ρομπότ διαβάζουν το αρχείο με σειρά. Έτσι, αν οι πρώτες γραμμές λένε ότι όλα τα ρομπότ έχουν αποκλειστεί από τα πάντα, και αργότερα στο αρχείο λέει ότι όλα τα ρομπότ έχουν πρόσβαση σε όλα, τα ρομπότ θα έχουν πρόσβαση σε όλα.

Αν δεν είστε σίγουροι αν έχετε γράψει σωστά το αρχείο robots.txt, μπορείτε να χρησιμοποιήσετε τα Εργαλεία για Webmasters της Google για να ελέγξετε το αρχείο robots.txt ή να γράψετε ένα νέο.