Η διασταυρούμενη επικύρωση είναι μια κρίσιμη τεχνική που χρησιμοποιείται για να αξιολογηθεί πόσο καλά θα αποδώσει ένα μοντέλο σε νέα δεδομένα. Ο πρωταρχικός στόχος είναι να αξιολογηθεί η απόδοση ενός μοντέλου με τρόπο που να ελαχιστοποιούνται ζητήματα όπως η υπερπροσαρμογή (όπου το μοντέλο μαθαίνει πάρα πολλά από τα δεδομένα εκπαίδευσης και αποδίδει ελάχιστα σε αφανή δεδομένα) και η υποπροσαρμογή (όπου το μοντέλο είναι πολύ απλοϊκό για να συλλάβει τα πρότυπα στα δεδομένα_C_.
Η έννοια περιλαμβάνει το διαχωρισμό των διαθέσιμων δεδομένων σε πολλαπλά υποσύνολα, συνήθως δύο κύρια μέρη: το σύνολο εκπαίδευσης και το σύνολο επικύρωσης (, το οποίο μερικές φορές ονομάζεται επίσης σύνολο δοκιμής).
Μια συνήθης τεχνική είναι η διασταυρούμενη επικύρωση k-πτυχών:
-
Το σύνολο δεδομένων διαιρείται σε "k" υποσύνολα (ή αναδιπλώσεις) περίπου ίσου μεγέθους.
-
Το μοντέλο εκπαιδεύεται "k" φορές, χρησιμοποιώντας κάθε φορά μια διαφορετική αναδίπλωση ως σύνολο επικύρωσης και τις υπόλοιπες αναδιπλώσεις ως σύνολο εκπαίδευσης.
-
Για παράδειγμα, στη διασταυρούμενη επικύρωση 5 φορές, τα δεδομένα χωρίζονται σε πέντε υποσύνολα. Το μοντέλο εκπαιδεύεται πέντε φορές, χρησιμοποιώντας κάθε φορά ένα διαφορετικό από τα πέντε υποσύνολα ως σύνολο επικύρωσης και τα άλλα τέσσερα ως σύνολο εκπαίδευσης.
-
Οι μετρικές απόδοσης (όπως η ακρίβεια, η ακρίβεια, η ανάκληση κ.λπ._) υπολογίζονται κατά μέσο όρο σε αυτές τις k επαναλήψεις για να προκύψει μια τελική εκτίμηση απόδοσης.
Άλλες κοινές τεχνικές περιλαμβάνουν
Διασταυρούμενη επαλήθευση Leave-One-Out (LOOCV)
-
Κάθε σημείο δεδομένων χρησιμεύει ως σύνολο επικύρωσης και το μοντέλο εκπαιδεύεται στα υπόλοιπα δεδομένα.
-
Αυτή η μέθοδος είναι υπολογιστικά δαπανηρή για μεγάλα σύνολα δεδομένων, αλλά μπορεί να είναι αρκετά ακριβής, καθώς χρησιμοποιεί σχεδόν όλα τα δεδομένα για εκπαίδευση.
Στρωματοποιημένη διασταυρούμενη επικύρωση
- Εξασφαλίζει ότι κάθε αναδίπλωση είναι αντιπροσωπευτική του συνόλου των δεδομένων. Διατηρεί την κατανομή των κλάσεων σε κάθε δίπλωμα, γεγονός που είναι χρήσιμο για ανισόρροπα σύνολα δεδομένων.
Η διασταυρούμενη επικύρωση είναι ζωτικής σημασίας επειδή παρέχει μια πιο αξιόπιστη εκτίμηση της απόδοσης ενός μοντέλου σε αθέατα δεδομένα σε σύγκριση με μια απλή διαίρεση εκπαίδευσης-δοκιμής. Βοηθά στον εντοπισμό προβλημάτων όπως η υπερπροσαρμογή ή η υποπροσαρμογή, παρέχοντας μια πιο ισχυρή εκτίμηση του τρόπου με τον οποίο το μοντέλο θα γενικευτεί σε νέα δεδομένα.
Με τη χρήση της διασταυρούμενης επικύρωσης, οι επαγγελματίες της μηχανικής μάθησης μπορούν να λαμβάνουν καλύτερες αποφάσεις σχετικά με την επιλογή μοντέλου, τη ρύθμιση υπερπαραμέτρων και την αξιολόγηση της απόδοσης γενίκευσης ενός μοντέλου σε αόρατα δεδομένα.