Ταξινόμηση στο Data Mining

Η ταξινόμηση είναι μια τεχνική εξόρυξης δεδομένων που αναθέτει κατηγορίες σε μια συλλογή δεδομένων προκειμένου να βοηθήσει σε ακριβέστερες προβλέψεις και ανάλυση. Ονομάζεται επίσης, μερικές φορές αποκαλούμενο δέντρο απόφασης , η ταξινόμηση είναι μία από τις διάφορες μεθόδους που αποσκοπούν στην αποτελεσματική ανάλυση των πολύ μεγάλων συνόλων δεδομένων.

Γιατί ταξινόμηση;

Πολύ μεγάλες βάσεις δεδομένων γίνονται ο κανόνας στον σημερινό κόσμο των "μεγάλων δεδομένων". Φανταστείτε μια βάση δεδομένων με πολλά terabytes δεδομένων - ένα terabyte είναι ένα τρισεκατομμύριο bytes δεδομένων.

Μόνο το Facebook χτυπά 600 terabytes νέων δεδομένων κάθε μέρα (από το 2014, την τελευταία φορά που ανέφερε αυτές τις προδιαγραφές). Η κύρια πρόκληση των μεγάλων δεδομένων είναι πώς να το κατανοήσουμε.

Και ο τεράστιος όγκος δεν είναι το μόνο πρόβλημα: τα μεγάλα δεδομένα τείνουν επίσης να είναι διαφορετικά, μη δομημένα και ταχέως μεταβαλλόμενα. Εξετάστε δεδομένα ήχου και βίντεο, δημοσιεύσεις κοινωνικών μέσων, δεδομένα 3D ή γεωχωρικά δεδομένα. Αυτά τα δεδομένα δεν είναι εύκολα κατηγοριοποιημένα ή οργανωμένα.

Για να αντιμετωπιστεί αυτή η πρόκληση, έχει αναπτυχθεί μια σειρά αυτόματων μεθόδων για την εξαγωγή χρήσιμων πληροφοριών, μεταξύ των οποίων και η ταξινόμηση .

Πώς λειτουργεί η ταξινόμηση

Με τον κίνδυνο να προχωρήσουμε υπερβολικά σε τεχνολογία, ας συζητήσουμε πώς λειτουργεί η ταξινόμηση. Ο στόχος είναι να δημιουργήσετε ένα σύνολο κανόνων ταξινόμησης που θα απαντούν σε μια ερώτηση, θα λαμβάνουν αποφάσεις ή θα προβλέπουν συμπεριφορά. Για να ξεκινήσετε, αναπτύσσεται ένα σύνολο δεδομένων κατάρτισης που περιέχει ένα ορισμένο σύνολο χαρακτηριστικών καθώς και το πιθανό αποτέλεσμα.

Η δουλειά του αλγορίθμου ταξινόμησης είναι να ανακαλύψει πώς το σύνολο των χαρακτηριστικών φτάνει στο συμπέρασμα του.

Σενάριο : Ίσως μια εταιρεία πιστωτικών καρτών προσπαθεί να καθορίσει ποιες προοπτικές πρέπει να λάβουν μια προσφορά πιστωτικής κάρτας.

Αυτό μπορεί να είναι το σύνολο των δεδομένων εκπαίδευσης:

Δεδομένα εκπαίδευσης
Ονομα Ηλικία Γένος Ετήσιο εισόδημα Προσφορά πιστωτικής κάρτας
John Doe 25 Μ 39.500 δολάρια Οχι
Jane Doe 56 φά 125.000 δολάρια Ναί

Οι στήλες "πρόβλεψη" ηλικία , φύλο και ετήσιο εισόδημα καθορίζουν την αξία της προσφοράς πιστωτικής κάρτας "χαρακτηριστικό πρόβλεψης". Σε ένα σύνολο εκπαίδευσης, το χαρακτηριστικό πρόβλεψης είναι γνωστό. Ο αλγόριθμος ταξινόμησης προσπαθεί στη συνέχεια να καθορίσει πώς επιτεύχθηκε η τιμή του χαρακτηριστικού προγνωστικού: ποιες σχέσεις υπάρχουν μεταξύ των προγνωστικών και της απόφασης; Θα αναπτύξει ένα σύνολο κανόνων πρόβλεψης, συνήθως μια δήλωση IF / THEN, για παράδειγμα:

IF (Ηλικία> 18 Ή Ηλικία <75) ΚΑΙ Ετήσιο εισόδημα> 40.000 THEN Προσφορά Πιστωτικής Κάρτας = ναι

Προφανώς, αυτό είναι ένα απλό παράδειγμα και ο αλγόριθμος θα χρειαζόταν πολύ μεγαλύτερη δειγματοληψία δεδομένων από τις δύο εγγραφές που παρουσιάζονται εδώ. Επιπλέον, οι κανόνες πρόβλεψης είναι πιθανόν να είναι πολύ πιο περίπλοκοι, συμπεριλαμβανομένων των υπο-κανόνων για τη συλλογή λεπτομερειών χαρακτηριστικών.

Στη συνέχεια, στον αλγόριθμο δίνεται ένα "σύνολο προβλέψεων" δεδομένων για ανάλυση, αλλά αυτό το σύνολο δεν διαθέτει το χαρακτηριστικό πρόβλεψης (ή απόφαση):

Δεδομένα Predictor
Ονομα Ηλικία Γένος Ετήσιο εισόδημα Προσφορά πιστωτικής κάρτας
Γιάννης Χιονιάς 42 Μ 88.000 δολάρια
Mary Murray 16 φά $ 0

Αυτά τα δεδομένα προγνωστικών βοηθούν στην εκτίμηση της ακρίβειας των κανόνων πρόβλεψης και οι κανόνες στη συνέχεια τροποποιούνται μέχρι ο προγραμματιστής να θεωρήσει τις προβλέψεις αποτελεσματικές και χρήσιμες.

Μέρα με την ημέρα Παραδείγματα ταξινόμησης

Η ταξινόμηση και άλλες τεχνικές εξόρυξης δεδομένων βρίσκονται πίσω από ένα μεγάλο μέρος της καθημερινής μας εμπειρίας ως καταναλωτών.

Οι προβλέψεις για τον καιρό ενδέχεται να χρησιμοποιήσουν την ταξινόμηση για να αναφέρουν εάν η ημέρα θα είναι βροχερή, ηλιόλουστη ή συννεφιασμένη. Το ιατρικό επάγγελμα μπορεί να αναλύσει τις συνθήκες υγείας για να προβλέψει τα ιατρικά αποτελέσματα. Ένας τύπος μεθόδου ταξινόμησης, Naive Bayesian, χρησιμοποιεί την υπό όρους πιθανότητα να κατηγοριοποιήσει τα μηνύματα spam. Από την ανίχνευση απάτης έως τις προσφορές προϊόντων, η ταξινόμηση βρίσκεται πίσω από τις σκηνές κάθε μέρα, αναλύοντας τα δεδομένα και δημιουργώντας προβλέψεις.