Ορισμός του στατιστικού μοντέλου παλινδρόμησης

Η ανάλυση παλινδρόμησης αναλύει τις σχέσεις μεταξύ των μεταβλητών

Η παλινδρόμηση είναι μια τεχνική εξόρυξης δεδομένων που χρησιμοποιείται για την πρόβλεψη μιας σειράς αριθμητικών τιμών (που ονομάζονται επίσης συνεχείς τιμές ), δεδομένου ενός συγκεκριμένου συνόλου δεδομένων. Για παράδειγμα, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για την πρόβλεψη του κόστους ενός προϊόντος ή υπηρεσίας, δεδομένων άλλων μεταβλητών.

Η παλινδρόμηση χρησιμοποιείται σε πολλές βιομηχανίες για τον προγραμματισμό των επιχειρήσεων και του μάρκετινγκ, τις οικονομικές προβλέψεις, την περιβαλλοντική μοντελοποίηση και την ανάλυση των τάσεων.

Regression Vs. Ταξινόμηση

Η παλινδρόμηση και η ταξινόμηση είναι τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται για την επίλυση παρόμοιων προβλημάτων, αλλά συχνά συγχέονται. Και οι δύο χρησιμοποιούνται στην ανάλυση πρόβλεψης, αλλά η παλινδρόμηση χρησιμοποιείται για να προβλέψει μια αριθμητική ή συνεχή τιμή ενώ η ταξινόμηση αναθέτει δεδομένα σε διακριτές κατηγορίες.

Για παράδειγμα, η παλινδρόμηση θα χρησιμοποιηθεί για την πρόβλεψη της αξίας ενός σπιτιού με βάση την τοποθεσία του, τα τετραγωνικά πόδια, την τιμή κατά την τελευταία πώληση, την τιμή παρόμοιων σπιτιών και άλλους παράγοντες. Η ταξινόμηση θα ήταν σωστή αν θέλατε να οργανώσετε, αντίθετα, τις κατοικίες σε κατηγορίες, όπως η ορμητικότητα, το μέγεθος της παρτίδας ή τα ποσοστά εγκληματικότητας.

Τύποι τεχνικών παλινδρόμησης

Η απλούστερη και παλαιότερη μορφή παλινδρόμησης είναι η γραμμική παλινδρόμηση που χρησιμοποιείται για την εκτίμηση μιας σχέσης μεταξύ δύο μεταβλητών. Αυτή η τεχνική χρησιμοποιεί τον μαθηματικό τύπο μιας ευθείας γραμμής (y = mx + b). Με απλά λόγια, αυτό σημαίνει απλώς ότι, δεδομένου ενός γραφήματος με Y και έναν άξονα Χ, η σχέση μεταξύ Χ και Υ είναι μια ευθεία γραμμή με λίγες απόκλισης. Για παράδειγμα, θα μπορούσαμε να υποθέσουμε ότι, δεδομένης της αύξησης του πληθυσμού, η παραγωγή τροφίμων θα αυξανόταν με τον ίδιο ρυθμό - αυτό απαιτεί μια ισχυρή, γραμμική σχέση μεταξύ των δύο αριθμών. Για να απεικονιστεί αυτό, σκεφτείτε ένα γράφημα στο οποίο ο άξονας Υ παρακολουθεί την αύξηση του πληθυσμού και ο άξονας Χ παρακολουθεί την παραγωγή τροφίμων. Καθώς αυξάνεται η τιμή Υ, η τιμή Χ θα αυξηθεί με τον ίδιο ρυθμό, κάνοντας τη σχέση μεταξύ τους ευθεία.

Οι προηγμένες τεχνικές, όπως η πολλαπλή παλινδρόμηση, προβλέπουν μια σχέση μεταξύ πολλαπλών μεταβλητών - για παράδειγμα, υπάρχει μια συσχέτιση μεταξύ εισοδήματος, εκπαίδευσης και όπου κάποιος επιλέγει να ζήσει; Η προσθήκη περισσότερων μεταβλητών αυξάνει σημαντικά την πολυπλοκότητα της πρόβλεψης. Υπάρχουν διάφοροι τύποι τεχνικών πολλαπλής παλινδρόμησης, συμπεριλαμβανομένων των τυποποιημένων, ιεραρχικών, setwise και σταδιακών, το καθένα με τη δική του εφαρμογή.

Σε αυτό το σημείο, είναι σημαντικό να καταλάβουμε τι προσπαθούμε να προβλέψουμε (την εξαρτώμενη ή προβλεπόμενη μεταβλητή) και τα δεδομένα που χρησιμοποιούμε για να κάνουμε την πρόβλεψη (τις ανεξάρτητες ή τις προβλέψεις μεταβλητές). Στο παράδειγμά μας, θέλουμε να προβλέψουμε τη θέση όπου κάποιος επιλέγει να ζήσει (η προβλεπόμενη μεταβλητή) δεδομένου εισοδήματος και εκπαίδευσης (και οι δύο μεταβλητές πρόβλεψης ).