Τι σημαίνει k-σημαίνει ομαδοποίηση;

Εξόρυξη δεδομένων με τον αλγόριθμο k-mean

Ο αλγόριθμος ομαδοποίησης k- σημαίνει ένα εργαλείο εξόρυξης δεδομένων και μηχανικής μάθησης που χρησιμοποιείται για τη συσσωμάτωση παρατηρήσεων σε ομάδες σχετικών παρατηρήσεων χωρίς προηγούμενη γνώση αυτών των σχέσεων. Με τη δειγματοληψία, ο αλγόριθμος προσπαθεί να δείξει σε ποια κατηγορία ή ομάδα ανήκουν τα δεδομένα, με τον αριθμό των συστάδων να ορίζεται από την τιμή k.

Ο αλγόριθμος k- σημαίνει μία από τις πιο απλές τεχνικές συσσωμάτωσης και χρησιμοποιείται συνήθως στην ιατρική απεικόνιση, τη βιομετρική και τους συναφείς τομείς. Το πλεονέκτημα του clustering σημαίνει ότι λέει τα δεδομένα σας (χρησιμοποιώντας τη μορφή του χωρίς εποπτεία) αντί να πρέπει να διδάξετε τον αλγόριθμο για τα δεδομένα στην αρχή (χρησιμοποιώντας την εποπτευόμενη μορφή του αλγορίθμου).

Μερικές φορές αναφέρεται ως αλγόριθμος Lloyd's, ιδιαίτερα στους κύκλους της επιστήμης των υπολογιστών, επειδή ο τυπικός αλγόριθμος προτάθηκε για πρώτη φορά από τον Stuart Lloyd το 1957. Ο όρος "k-means" δημιουργήθηκε το 1967 από τον James McQueen.

Πώς λειτουργεί ο αλγόριθμος k-means

Ο αλγόριθμος k-mean είναι ένας εξελικτικός αλγόριθμος που κερδίζει το όνομά του από τον τρόπο λειτουργίας του. Ο αλγόριθμος συγκεντρώνει τις παρατηρήσεις σε ομάδες k , όπου το k παρέχεται ως παράμετρος εισόδου. Κατόπιν, εκχωρεί κάθε παρατήρηση σε συστάδες με βάση την εγγύτητα της παρατήρησης με τον μέσο όρο της συστάδας. Στη συνέχεια, ο μέσος όρος του συμπλέγματος αναπροσαρμόζεται και η διαδικασία ξεκινά ξανά. Δείτε πώς λειτουργεί ο αλγόριθμος:

  1. Ο αλγόριθμος επιλέγει αυθαίρετα k σημεία ως αρχικά κέντρα συμπλέγματος (τα μέσα).
  2. Κάθε σημείο του συνόλου δεδομένων ανατίθεται στο κλειστό σύμπλεγμα, με βάση την ευκλείδεια απόσταση μεταξύ κάθε σημείου και κάθε κέντρου συστάδων.
  3. Κάθε κέντρο συμπλέγματος αναπροσαρμόζεται ως ο μέσος όρος των σημείων σε αυτό το σύμπλεγμα.
  4. Τα βήματα 2 και 3 επαναλαμβάνονται έως ότου τα συγκροτήματα συγκλίνουν. Η σύγκλιση μπορεί να οριστεί διαφορετικά ανάλογα με την υλοποίηση, αλλά συνήθως σημαίνει ότι είτε οι παρατηρήσεις δεν αλλάζουν clusters όταν επαναλαμβάνονται τα βήματα 2 και 3 ή ότι οι αλλαγές δεν κάνουν σημαντική διαφορά στον ορισμό των ομάδων.

Επιλέγοντας τον αριθμό των συμπλεγμάτων

Ένα από τα κύρια μειονεκτήματα του k- σημαίνει ομαδοποίηση είναι το γεγονός ότι πρέπει να καθορίσετε τον αριθμό των συμπλεγμάτων ως είσοδο στον αλγόριθμο. Όπως έχει σχεδιαστεί, ο αλγόριθμος δεν είναι σε θέση να καθορίσει τον κατάλληλο αριθμό ομάδων και εξαρτάται από το χρήστη να το εντοπίσει εκ των προτέρων.

Για παράδειγμα, αν είχατε μια ομάδα ανθρώπων που πρόκειται να συγκεντρωθούν βάσει δυαδικής ταυτότητας φύλου ως αρσενικό ή θηλυκό, ονομάζοντας τον αλγόριθμο k-mean χρησιμοποιώντας την είσοδο k = 3 θα ωθούσε τους ανθρώπους σε τρεις ομάδες όταν μόνο δύο ή η είσοδος του k = 2, θα παρέχει μια πιο φυσική εφαρμογή.

Ομοίως, αν μια ομάδα ατόμων ήταν εύκολα συγκεντρωμένη με βάση την κατάσταση στο σπίτι και κάλεσε τον αλγόριθμο k-mean με την είσοδο k = 20, τα αποτελέσματα μπορεί να είναι πολύ γενικευμένα για να είναι αποτελεσματικά.

Για αυτόν τον λόγο, είναι συχνά μια καλή ιδέα να πειραματιστείτε με διαφορετικές τιμές του k για να προσδιορίσετε την αξία που ταιριάζει καλύτερα στα δεδομένα σας. Μπορείτε επίσης να θελήσετε να εξερευνήσετε τη χρήση άλλων αλγορίθμων εξόρυξης δεδομένων στην προσπάθειά σας για γνώση που αποκτήθηκε από τη μηχανή.