Τι πρέπει να ξέρετε για τη φιλική υπηρεσία Bayesian Spam

by Heinz Tschabitscher

Μάθετε πώς τα στατιστικά στοιχεία διατηρούν τα εισερχόμενά σας καθαρά

Τα Bayesian φίλτρα ανεπιθύμητης αλληλογραφίας υπολογίζουν την πιθανότητα ενός μηνύματος να είναι spam με βάση το περιεχόμενό του. Σε αντίθεση με τα απλά φίλτρα που βασίζονται στο περιεχόμενο, το φιλτράρισμα ανεπιθύμητων μηνυμάτων από τη Bayesian μαθαίνει από ανεπιθύμητα μηνύματα και από καλή αλληλογραφία, με αποτέλεσμα μια πολύ ισχυρή, προσαρμόσιμη και αποτελεσματική προσέγγιση κατά της ανεπιθύμητης αλληλογραφίας, η οποία, πάνω απ 'όλα, επιστρέφει σχεδόν καθόλου ψευδώς θετικά.

Πώς αναγνωρίζετε ανεπιθύμητη αλληλογραφία;

Σκεφτείτε πώς ανιχνεύετε το spam . Μια γρήγορη ματιά συχνά είναι αρκετή. Ξέρετε ποιο spam μοιάζει και ξέρετε τι καλό mail μοιάζει.

Η πιθανότητα spam που μοιάζει με καλή αλληλογραφία είναι περίπου ... μηδέν.

Η βαθμολόγηση των φίλτρων βάσει περιεχομένου δεν προσαρμόζεται

Δεν θα ήταν ωραίο αν τα αυτόματα φίλτρα spam λειτουργούσαν και αυτό;

Η βαθμολόγηση φίλτρων ανεπιθύμητης αλληλογραφίας που βασίζονται σε περιεχόμενο προσπαθεί απλά αυτό Ψάχνουν για λέξεις και άλλα χαρακτηριστικά χαρακτηριστικά του spam. Κάθε χαρακτηριστικό στοιχείο έχει βαθμολογηθεί, και ένα σκορ spam για ολόκληρο το μήνυμα υπολογίζεται από τις επιμέρους βαθμολογίες. Μερικά φίλτρα βαθμολόγησης αναζητούν επίσης τα χαρακτηριστικά του νόμιμου ταχυδρομείου, μειώνοντας το τελικό αποτέλεσμα ενός μηνύματος.

Η προσέγγιση των φίλτρων βαθμολόγησης λειτουργεί, αλλά έχει επίσης αρκετά μειονεκτήματα:

Ο κατάλογος των χαρακτηριστικών είναι κατασκευασμένος από το spam (και το καλό ταχυδρομείο) που είναι διαθέσιμο στους μηχανικούς του φίλτρου. Για να πάρετε μια καλή κατανόηση του τυπικού spam οποιοσδήποτε μπορεί να πάρει, το ταχυδρομείο πρέπει να συγκεντρωθεί σε εκατοντάδες διευθύνσεις ηλεκτρονικού ταχυδρομείου. Αυτό αποδυναμώνει την αποτελεσματικότητα των φίλτρων, ειδικά επειδή τα χαρακτηριστικά του καλού ταχυδρομείου θα είναι διαφορετικά για κάθε άτομο , αλλά αυτό δεν λαμβάνεται υπόψη.
Τα χαρακτηριστικά που πρέπει να αναζητηθούν είναι περισσότερο ή λιγότερο τετραγωνισμένα . Αν οι spammers καταβάλουν προσπάθεια να προσαρμοστούν (και το spam τους μοιάζει με καλό ταχυδρομείο στα φίλτρα), τα χαρακτηριστικά φιλτραρίσματος πρέπει να τροποποιηθούν με το χέρι - μια ακόμη μεγαλύτερη προσπάθεια.
Το σκορ που αποδίδεται σε κάθε λέξη πιθανότατα βασίζεται σε μια καλή εκτίμηση, αλλά εξακολουθεί να είναι αυθαίρετη. Και όπως ο κατάλογος των χαρακτηριστικών, δεν προσαρμόζεται ούτε στον μεταβαλλόμενο κόσμο του spam γενικά ούτε στις ανάγκες ενός μεμονωμένου χρήστη.

Bayesian φίλτρα ανεπιθύμητης αλληλογραφίας Tweak τους, να πάρει καλύτερα και καλύτερα

Τα Bayesian φίλτρα spam είναι ένα είδος βαθμολόγησης φίλτρων με βάση το περιεχόμενο. Η προσέγγισή τους όμως απομακρύνει τα προβλήματα των απλών αποτελεσμάτων φίλτρων ανεπιθύμητης αλληλογραφίας, και το κάνει τόσο ριζικά. Δεδομένου ότι η αδυναμία των φίλτρων βαθμολόγησης βρίσκεται στη λίστα των χαρακτηριστικών και των βαθμολογιών που έχουν δημιουργηθεί με μη αυτόματο τρόπο, ο κατάλογος αυτός εξαλείφεται.

Αντ 'αυτού, τα φίλτρα spam Bayes δημιουργούν την ίδια τη λίστα. Στην ιδανική περίπτωση, ξεκινάτε με μια (μεγάλη) δέσμη μηνυμάτων ηλεκτρονικού ταχυδρομείου που έχετε ταξινομήσει ως ανεπιθύμητα και μια άλλη δέσμη καλών μηνυμάτων. Τα φίλτρα εξετάζουν και τα δύο και αναλύουν το νόμιμο ταχυδρομείο καθώς και το spam για να υπολογίσουν την πιθανότητα εμφάνισης διαφόρων χαρακτηριστικών που εμφανίζονται σε spam και με καλή αλληλογραφία.

Πώς ένα Bayesian Spam Filter εξετάζει ένα μήνυμα ηλεκτρονικού ταχυδρομείου

Τα χαρακτηριστικά ενός Bayesian spam φίλτρου μπορεί να εξετάσει μπορεί να είναι:

οι λέξεις στο σώμα του μηνύματος, φυσικά, και
τις κεφαλίδες (αποστολείς και μονοπάτια μηνυμάτων , για παράδειγμα!), αλλά και
άλλες πτυχές όπως ο κώδικας HTML / CSS (όπως τα χρώματα και άλλες μορφοποιήσεις) ή ακόμη και
ζεύγη λέξεων, φράσεις και
μετα-πληροφορίες (όπου εμφανίζεται μια συγκεκριμένη φράση, για παράδειγμα).

Εάν μια λέξη "Καρτεσιανό" για παράδειγμα, δεν εμφανίζεται ποτέ σε spam, αλλά συχνά στο νόμιμο μήνυμα ηλεκτρονικού ταχυδρομείου που λαμβάνετε, η πιθανότητα ότι το "Καρτεσιανό" υποδεικνύει ανεπιθύμητο περιεχόμενο είναι σχεδόν μηδέν. Το "Toner", από την άλλη πλευρά, εμφανίζεται αποκλειστικά και συχνά σε spam. Το "Toner" έχει πολύ μεγάλη πιθανότητα να βρεθεί σε spam, όχι πολύ κάτω από το 1 (100%).

Όταν φτάσει ένα νέο μήνυμα, αναλύεται από το Bayesian φίλτρο ανεπιθύμητης αλληλογραφίας και η πιθανότητα ολόκληρου του μηνύματος να είναι spam υπολογίζεται χρησιμοποιώντας τα μεμονωμένα χαρακτηριστικά.

Υποθέστε ότι ένα μήνυμα περιέχει τόσο "καρτεσιανό" όσο και "τόνερ". Μόνο από αυτές τις λέξεις δεν είναι ακόμα σαφές αν έχουμε spam ή legit mail. Άλλα χαρακτηριστικά (ενδεχομένως και πιθανότατα) υποδεικνύουν μια πιθανότητα που επιτρέπει στο φίλτρο να ταξινομήσει το μήνυμα είτε ως ανεπιθύμητο είτε ως καλό ταχυδρομείο.

Τα Bayesian Spam Filters μπορούν να μάθουν αυτόματα

Τώρα που έχουμε μια ταξινόμηση, το μήνυμα μπορεί να χρησιμοποιηθεί για την περαιτέρω εκπαίδευση του φίλτρου. Σε αυτή την περίπτωση, είτε η πιθανότητα "καρτεσιανού" που υποδεικνύει την καλή αλληλογραφία μειώνεται (εάν το μήνυμα που περιέχει τόσο "καρτεσιανό" όσο και "γραφίτη" διαπιστωθεί ότι είναι ανεπιθύμητο) ή η πιθανότητα "γραφίτη" που υποδηλώνει ανεπιθύμητο περιεχόμενο πρέπει να επανεξεταστεί.

Χρησιμοποιώντας αυτή την τεχνική αυτόματης προσαρμογής, τα Bayesian φίλτρα μπορούν να μάθουν τόσο από τις δικές τους όσο και από τις αποφάσεις του χρήστη (αν διορθώνει χειροκίνητα μια εσφαλμένη εκτίμηση από τα φίλτρα). Η προσαρμοστικότητα του Bayesian φιλτραρίσματος διασφαλίζει επίσης ότι είναι πιο αποτελεσματικές για τον κάθε χρήστη ηλεκτρονικού ταχυδρομείου. Ενώ το spam των περισσότερων ανθρώπων μπορεί να έχει παρόμοια χαρακτηριστικά, η νόμιμη αλληλογραφία είναι χαρακτηριστικά διαφορετική για όλους.

Πώς μπορούν οι spammers να πάρουν παλιές Bayesian φίλτρα;

Τα χαρακτηριστικά του νόμιμου ταχυδρομείου είναι εξίσου σημαντικά για τη διαδικασία φιλτραρίσματος ανεπιθύμητων μηνυμάτων από το Bayes όπως το spam. Εάν τα φίλτρα έχουν εκπαιδευτεί ειδικά για κάθε χρήστη, οι spammers θα έχουν ακόμα πιο δύσκολο χρόνο να εργάζονται γύρω από τα φίλτρα ανεπιθύμητης αλληλογραφίας όλων (ή ακόμα και των ανθρώπων) και τα φίλτρα μπορούν να προσαρμοστούν σε σχεδόν όλα τα spammers προσπαθούν.

Οι spammers θα κάνουν μόνο μετά από καλά εκπαιδευμένα Bayesian φίλτρα, αν κάνουν τα μηνύματα spam να φαίνονται τέλεια σαν το συνηθισμένο email που μπορεί να πάρει ο καθένας.

Οι spammers συνήθως δεν στέλνουν τέτοια συνηθισμένα μηνύματα ηλεκτρονικού ταχυδρομείου. Ας υποθέσουμε ότι αυτό οφείλεται στο γεγονός ότι αυτά τα μηνύματα ηλεκτρονικού ταχυδρομείου δεν λειτουργούν ως μηνύματα ανεπιθύμητης αλληλογραφίας. Έτσι, οι πιθανότητες είναι ότι δεν θα το κάνουν όταν τα συνηθισμένα, βαρετά μηνύματα ηλεκτρονικού ταχυδρομείου είναι ο μόνος τρόπος να τα καταστήσετε φίλτρα spam.

Αν όμως οι αποστολείς ανεπιθύμητης αλληλογραφίας μεταπηδούν σε συνήθως συνηθισμένα μηνύματα ηλεκτρονικού ταχυδρομείου, θα δούμε πάλι πολλά μηνύματα ηλεκτρονικού ταχυδρομείου στα Εισερχόμενά μας και τα μηνύματα ηλεκτρονικού ταχυδρομείου ενδέχεται να απογοητευτούν όπως ήταν σε προ-Bayesian ημέρες (ή ακόμα χειρότερα). Θα έχει επίσης καταστρέψει την αγορά για τα περισσότερα είδη spam, όμως, και έτσι δεν θα διαρκέσει για πολύ.

Ισχυροί δείκτες Μπορεί να είναι ένα Bayesian φίλτρο spam του Achilles & # 39; Φτέρνα

Μια εξαίρεση μπορεί να γίνει αντιληπτή για τους spammers να δουλεύουν μέσω Bayesian φίλτρων ακόμη και με το συνηθισμένο περιεχόμενο τους. Είναι στη φύση των Bayesian στατιστικών ότι μια λέξη ή ένα χαρακτηριστικό που εμφανίζεται πολύ συχνά σε καλή αλληλογραφία μπορεί να είναι τόσο σημαντικό ώστε να μετατρέψει οποιοδήποτε μήνυμα από το να μοιάζει με ανεπιθύμητη αλληλογραφία και να θεωρείται ως ζαμπόν από το φίλτρο.

Εάν οι χρήστες spammers βρουν έναν τρόπο να προσδιορίσουν τις λέξεις καλής αλληλογραφίας σίγουρης πυρκαγιάς - χρησιμοποιώντας αποδείξεις επιστροφής HTML για να δείτε ποια μηνύματα που ανοίξατε, για παράδειγμα-, μπορούν να συμπεριλάβουν ένα από αυτά σε ανεπιθύμητη αλληλογραφία και να επικοινωνήσουν με εσάς, εκπαιδευμένο Bayesian φίλτρο.

Ο John Graham-Cumming το έχει δοκιμάσει αφήνοντας δύο Bayesian φίλτρα να λειτουργούν ο ένας εναντίον του άλλου, ο "κακός" που προσαρμόζει σε ποια μηνύματα βρίσκονται να περάσουν από το "καλό" φίλτρο. Λέει ότι λειτουργεί, αν και η διαδικασία είναι χρονοβόρα και περίπλοκη. Δεν νομίζουμε ότι θα δούμε πολλά από αυτά να συμβαίνουν, τουλάχιστον όχι σε μεγάλη κλίμακα και να μην είναι προσαρμοσμένα στα χαρακτηριστικά ηλεκτρονικού ταχυδρομείου των ατόμων. Οι spammers μπορεί (προσπαθούν) να καταλάβουν κάποιες λέξεις-κλειδιά για οργανισμούς (κάτι σαν "Almaden" για μερικούς ανθρώπους στην IBM ίσως;).

Συνήθως, το spam θα είναι πάντα (σημαντικά) διαφορετικό από το κανονικό ταχυδρομείο ή δεν θα είναι spam, όμως.

Η κατώτατη γραμμή: Η δύναμη της Bayesian φιλτραρίσματος μπορεί να είναι η αδυναμία της

Τα φίλτρα spam Bayes είναι φίλτρα που βασίζονται σε περιεχόμενο που:

είναι ειδικά εκπαιδευμένοι για να αναγνωρίσουν το spam και το καλό ταχυδρομείο του μεμονωμένου χρήστη ηλεκτρονικού ταχυδρομείου , καθιστώντας τα ιδιαίτερα αποτελεσματικά και δύσκολα προσαρμόσιμα για τους spammers.
μπορεί συνεχώς και χωρίς μεγάλη προσπάθεια ή με χειροκίνητη ανάλυση να προσαρμοστεί στα τελευταία κόλπα των spammers.
να λαμβάνουν υπόψη το καλό ταχυδρομείο του χρήστη και να έχουν πολύ χαμηλό ποσοστό ψευδών θετικών .
Δυστυχώς, αν αυτό δημιουργεί τυφλή εμπιστοσύνη στα Bayesian φίλτρα κατά της ανεπιθύμητης αλληλογραφίας, καθιστά το περιστασιακό λάθος ακόμη πιο σοβαρό . Το αντίθετο αποτέλεσμα των ψευδών αρνητικών (spam που μοιάζει ακριβώς με το κανονικό ταχυδρομείο) έχει τη δυνατότητα να ενοχλεί και να εμποδίζει τους χρήστες.