14 Δεκέμβριος 2017

Κατηγοριοποίηση Πελατών: Ανάλυση σε κύριες συνιστώσες για visualization

Η ανάλυση κυρίων συνιστωσών (PCA) είναι μια μέθοδος μείωσης των διαστάσεων των δεδομένων. Παίρνει τα δεδομένα σου και μετατρέπονται σε κύριες συνιστώσες (Principal Components). Κάθε κύρια συνιστώσα επιλέγεται στην ορθογώνια κατεύθυνση που μεγιστοποιεί την γραμμική συσχέτιση των δεδομένων. Πιο απλά, αν τα δεδομένα είναι x, y, z συντεταγμένων η PCA επιστρέφει x’,y’,z’ συντεταγμένες που μεγιστοποιούν την γραμμική συσχέτιση. Οι κύριες συνιστώσες προκύπτουν από τη φασματική ανάλυση του πίνακα διακυμάνσεων-συν διακυμάνσεων ή του πίνακα συσχετίσεων.

 

Αυτό είναι πολύ χρήσιμο σε προβλήματα visualization. Ο τρόπος που επιλέγονται οι κύριες συνιστώσες είναι τέτοιος που η πρώτη κύρια συνιστώσα «εξηγεί» το μεγαλύτερο κομμάτι της μεταβλητότητας των δεδομένων, η δεύτερη το αμέσως επόμενο κλπ. Άρα, συνήθως οι PC1 και PC2 «περιγράφουν» το μεγαλύτερο ποσοστό των δεδομένων.

 

Φανταστείτε τώρα να διαθέτουμε δεδομένα πελατών και θέλουμε να έχουμε μια γρήγορη πρώτη εικόνα για την κατηγοριοποίησή τους σε 2 ή περισσότερες κατηγορίες ή αφού έχουμε κάνει αυτό το διαχωρισμό με κάποια άλλη μέθοδο κατηγοριοποίησης θέλουμε απλά να οπτικοποίησουμε αυτές τις ομάδες. Αυτό είναι αδύνατο αν σκεφτεί κανείς πόσες μεταβλητές περιέχουν δεδομένα πελατών (ηλικία, φύλλο, επάγγελμα, προηγούμενες αγορές, προτιμήσεις και πολλά άλλα). Έχοντας τις PC1 και PC2 έχουμε μόλις δύο μεταβλητές που μπορούν να περιγράψουν τα δεδομένα κάτι που είναι πολύ εύκολο να απεικονιστεί!


Τέλος, η ανάλυση σε κύριες συνιστώσες δεν μπορεί να εφαρμοστεί σε κάθε περίπτωση επιτυχώς, όπως για παράδειγμα όταν τα δεδομένα είναι ασυσχέτιστα. Πρέπει ο αναλυτής να γνωρίζει τα μαθηματικά πίσω από τον αλγόριθμο για να καταλάβει αν η ανάλυση σε κύριες συνιστώσες χρησιμεύει ή αν τα αποτελέσματα είναι αξιόπιστα.