Η ανάλυση παλινδρόμησης αναλύει τις σχέσεις μεταξύ των μεταβλητών
Η παλινδρόμηση είναι μια τεχνική εξόρυξης δεδομένων που χρησιμοποιείται για την πρόβλεψη μιας σειράς αριθμητικών τιμών (που ονομάζονται επίσης συνεχείς τιμές ), δεδομένου ενός συγκεκριμένου συνόλου δεδομένων. Για παράδειγμα, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για την πρόβλεψη του κόστους ενός προϊόντος ή υπηρεσίας, δεδομένων άλλων μεταβλητών.
Η παλινδρόμηση χρησιμοποιείται σε πολλές βιομηχανίες για τον προγραμματισμό των επιχειρήσεων και του μάρκετινγκ, τις οικονομικές προβλέψεις, την περιβαλλοντική μοντελοποίηση και την ανάλυση των τάσεων.
Regression Vs. Ταξινόμηση
Η παλινδρόμηση και η ταξινόμηση είναι τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται για την επίλυση παρόμοιων προβλημάτων, αλλά συχνά συγχέονται. Και οι δύο χρησιμοποιούνται στην ανάλυση πρόβλεψης, αλλά η παλινδρόμηση χρησιμοποιείται για να προβλέψει μια αριθμητική ή συνεχή τιμή ενώ η ταξινόμηση αναθέτει δεδομένα σε διακριτές κατηγορίες.
Για παράδειγμα, η παλινδρόμηση θα χρησιμοποιηθεί για την πρόβλεψη της αξίας ενός σπιτιού με βάση την τοποθεσία του, τα τετραγωνικά πόδια, την τιμή κατά την τελευταία πώληση, την τιμή παρόμοιων σπιτιών και άλλους παράγοντες. Η ταξινόμηση θα ήταν σωστή αν θέλατε να οργανώσετε, αντίθετα, τις κατοικίες σε κατηγορίες, όπως η ορμητικότητα, το μέγεθος της παρτίδας ή τα ποσοστά εγκληματικότητας.
Τύποι τεχνικών παλινδρόμησης
Η απλούστερη και παλαιότερη μορφή παλινδρόμησης είναι η γραμμική παλινδρόμηση που χρησιμοποιείται για την εκτίμηση μιας σχέσης μεταξύ δύο μεταβλητών. Αυτή η τεχνική χρησιμοποιεί τον μαθηματικό τύπο μιας ευθείας γραμμής (y = mx + b). Με απλά λόγια, αυτό σημαίνει απλώς ότι, δεδομένου ενός γραφήματος με Y και έναν άξονα Χ, η σχέση μεταξύ Χ και Υ είναι μια ευθεία γραμμή με λίγες απόκλισης. Για παράδειγμα, θα μπορούσαμε να υποθέσουμε ότι, δεδομένης της αύξησης του πληθυσμού, η παραγωγή τροφίμων θα αυξανόταν με τον ίδιο ρυθμό - αυτό απαιτεί μια ισχυρή, γραμμική σχέση μεταξύ των δύο αριθμών. Για να απεικονιστεί αυτό, σκεφτείτε ένα γράφημα στο οποίο ο άξονας Υ παρακολουθεί την αύξηση του πληθυσμού και ο άξονας Χ παρακολουθεί την παραγωγή τροφίμων. Καθώς αυξάνεται η τιμή Υ, η τιμή Χ θα αυξηθεί με τον ίδιο ρυθμό, κάνοντας τη σχέση μεταξύ τους ευθεία.
Οι προηγμένες τεχνικές, όπως η πολλαπλή παλινδρόμηση, προβλέπουν μια σχέση μεταξύ πολλαπλών μεταβλητών - για παράδειγμα, υπάρχει μια συσχέτιση μεταξύ εισοδήματος, εκπαίδευσης και όπου κάποιος επιλέγει να ζήσει; Η προσθήκη περισσότερων μεταβλητών αυξάνει σημαντικά την πολυπλοκότητα της πρόβλεψης. Υπάρχουν διάφοροι τύποι τεχνικών πολλαπλής παλινδρόμησης, συμπεριλαμβανομένων των τυποποιημένων, ιεραρχικών, setwise και σταδιακών, το καθένα με τη δική του εφαρμογή.
Σε αυτό το σημείο, είναι σημαντικό να καταλάβουμε τι προσπαθούμε να προβλέψουμε (την εξαρτώμενη ή προβλεπόμενη μεταβλητή) και τα δεδομένα που χρησιμοποιούμε για να κάνουμε την πρόβλεψη (τις ανεξάρτητες ή τις προβλέψεις μεταβλητές). Στο παράδειγμά μας, θέλουμε να προβλέψουμε τη θέση όπου κάποιος επιλέγει να ζήσει (η προβλεπόμενη μεταβλητή) δεδομένου εισοδήματος και εκπαίδευσης (και οι δύο μεταβλητές πρόβλεψης ).
- Η τυπική πολλαπλή παλινδρόμηση θεωρεί ταυτόχρονα όλες τις μεταβλητές πρόβλεψης. Για παράδειγμα 1) ποια είναι η σχέση μεταξύ εισοδήματος και εκπαίδευσης (προγνωστικών) και επιλογής γειτονιάς (προβλεπόμενη); και 2) σε ποιο βαθμό συμβάλλουν οι καθέναν από τους μεμονωμένους παράγοντες πρόβλεψης στη σχέση αυτή;
- Η σταδιακή πολλαπλή παλινδρόμηση απαντά σε μια εντελώς διαφορετική ερώτηση. Ένας αλγόριθμος βαθμιαίας παλινδρόμησης θα αναλύσει ποιοι προγνωστικοί δείκτες χρησιμοποιούνται καλύτερα για την πρόβλεψη της επιλογής γειτονιάς - που σημαίνει ότι το σταδιακό μοντέλο αξιολογεί τη σειρά σπουδαιότητας των μεταβλητών πρόβλεψης και στη συνέχεια επιλέγει ένα σχετικό υποσύνολο. Αυτός ο τύπος προβλήματος παλινδρόμησης χρησιμοποιεί "βήματα" για να αναπτύξει την εξίσωση παλινδρόμησης. Δεδομένου αυτού του τύπου παλινδρόμησης, όλοι οι προβλεπόμενοι μπορεί να μην εμφανίζονται ακόμη και στην τελική εξίσωση παλινδρόμησης.
- Η ιεραρχική παλινδρόμηση , όπως σταδιακά, είναι μια διαδοχική διαδικασία, αλλά οι μεταβλητές πρόβλεψης εισάγονται στο μοντέλο με μια προκαθορισμένη σειρά που ορίζεται εκ των προτέρων, δηλαδή ο αλγόριθμος δεν περιέχει ένα ενσωματωμένο σύνολο εξισώσεων για τον προσδιορισμό της σειράς με την οποία εισάγετε τους προγνωστικούς δείκτες. Αυτό χρησιμοποιείται πιο συχνά όταν το άτομο που δημιουργεί την εξίσωση παλινδρόμησης έχει εξειδικευμένες γνώσεις του τομέα.
- Η παλινδρόμηση Setwise είναι επίσης παρόμοια με τα βήματα, αλλά αναλύει σύνολα μεταβλητών και όχι μεμονωμένες μεταβλητές.