Η κανονικοποίηση αναφέρεται σε ένα σύνολο τεχνικών που χρησιμοποιούνται για την αποφυγή της υπερπροσαρμογής και τη βελτίωση της γενίκευσης ενός μοντέλου. Η υπερπροσαρμογή συμβαίνει όταν ένα μοντέλο μαθαίνει τα δεδομένα εκπαίδευσης πολύ καλά, καταγράφοντας θόρυβο και συγκεκριμένες λεπτομέρειες που δεν ισχύουν σε νέα, αθέατα δεδομένα. Η κανονικοποίηση βοηθά στον έλεγχο αυτού του φαινομένου προσθέτοντας έναν όρο ποινής στην αντικειμενική συνάρτηση του μοντέλου, αποθαρρύνοντας τα υπερβολικά πολύπλοκα μοντέλα.
Δύο συνηθισμένοι τύποι κανονικοποίησης είναι η L1 και η L2 κανονικοποίηση:
Κανονικοποίηση L1 (Lasso Παλινδρόμηση):
-
Η κανονικοποίηση L1 προσθέτει έναν όρο ποινής στη συνάρτηση κόστους ίσο με τις απόλυτες τιμές των συντελεστών του μοντέλου.
-
Ενθαρρύνει τη σπανιότητα του μοντέλου, συρρικνώνοντας ορισμένους συντελεστές στο μηδέν ακριβώς, πραγματοποιώντας ουσιαστικά επιλογή χαρακτηριστικών.
-
Το μοντέλο που προκύπτει είναι απλούστερο και ευκολότερο στην ερμηνεία, καθώς επιλέγει μόνο τα πιο σημαντικά χαρακτηριστικά, ενώ απορρίπτει τα λιγότερο σημαντικά.
Κανονικοποίηση L2 (Ridge Regression):
-
Η κανονικοποίηση L2 προσθέτει έναν όρο ποινής στη συνάρτηση κόστους ίσο με το τετράγωνο των μεγεθών των συντελεστών του μοντέλου.
-
Τείνει να συρρικνώνει τους συντελεστές των λιγότερο σημαντικών χαρακτηριστικών προς το μηδέν, αλλά σπάνια τους μηδενίζει ακριβώς.
-
Η κανονικοποίηση L2 είναι αποτελεσματική στην πρόληψη της υπερπροσαρμογής, τιμωρώντας τα μεγάλα βάρη και, επομένως, μειώνοντας την πολυπλοκότητα του μοντέλου.
Τόσο οι τεχνικές κανονικοποίησης L1 όσο και οι τεχνικές κανονικοποίησης L2 βοηθούν στη μείωση της υπερπροσαρμογής και στη βελτίωση της ικανότητας του μοντέλου να γενικεύει σε αόρατα δεδομένα. Η επιλογή μεταξύ της κανονικοποίησης L1 και L2 εξαρτάται συχνά από το συγκεκριμένο πρόβλημα, τη φύση των χαρακτηριστικών και το επιθυμητό αποτέλεσμα. Η κανονικοποίηση Lasso (L1), με την ιδιότητα επιλογής χαρακτηριστικών, προτιμάται όταν υπάρχει ανάγκη εντοπισμού των πιο σχετικών χαρακτηριστικών. Η κανονικοποίηση Ridge (L2) είναι κατάλληλη όταν όλα τα χαρακτηριστικά είναι δυνητικά σημαντικά και προτιμάται η μείωση της επίδρασής τους χωρίς την πλήρη εξάλειψή τους. Επιπλέον, μπορεί να χρησιμοποιηθεί ένας συνδυασμός και των δύο τεχνικών, γνωστός ως Elastic Net regularization, ώστε να αξιοποιηθούν ταυτόχρονα τα πλεονεκτήματα της L1 και της L2 regularization.