Techniki regularyzacji, takie jak L1 i L2, służą do zapobiegania nadmiernemu dopasowaniu modeli uczenia maszynowego poprzez karanie dużych współczynników.
Regularyzacja L1, znana również jako regularyzacja Lasso, dodaje składnik karny proporcjonalny do wartości bezwzględnej współczynników cech. Zachęca do rzadkości, doprowadzając niektóre współczynniki do dokładnie zera, skutecznie przeprowadzając selekcję cech poprzez eliminację mniej ważnych cech. Ta możliwość wyboru cech sprawia, że regularyzacja L1 jest szczególnie przydatna w przypadku zbiorów danych o dużej liczbie cech, ponieważ pomaga uprościć modele poprzez skupienie się na najbardziej istotnych cechach. Powstałe w ten sposób uproszczenie modelu zmniejsza nadmierne dopasowanie.
Z drugiej strony regularyzacja L2, znana również jako regularyzacja grzbietu, dodaje składnik karny proporcjonalny do kwadratu współczynników cech. Nie wymusza, aby współczynniki osiągnęły dokładnie zero, ale zamiast tego zmniejsza je do zera, sprawiając, że wszystkie cechy w pewnym stopniu przyczyniają się do modelu. Regularyzacja L2 jest skuteczna w obsłudze współliniowości i generalnie prowadzi do bardziej stabilnych, ale mniej rzadkich modeli w porównaniu z regularyzacją L1.
Scenariusze, w których regularyzacja L1 może być bardziej korzystna, obejmują:
-
Wielowymiarowe zbiory danych z wieloma cechami: W przypadku zbiorów danych, w których przestrzeń cech jest duża, regularyzacja L1 pomaga w automatycznym wyborze cech, poprawiając interpretację modelu i wydajność.
-
Gdy oczekuje się rzadkości cech: W dziedzinach, w których przewiduje się, że tylko kilka cech ma naprawdę wpływ, regularyzacja L1 może skutecznie identyfikować te cechy i skupiać się na nich.
Jednak regularyzacja L1 może być mniej skuteczna w scenariuszach, w których:
-
Zakłada się, że wszystkie funkcje są ważne: Jeśli istnieje przekonanie, że większość funkcji jest istotna i wykluczenie którejkolwiek z nich może spowodować utratę informacji, L1 może nie być najlepszym wyborem, ponieważ ma tendencję do ustawiania współczynników na zero.
-
Zbiór danych ma problemy z wieloliniowością: Regularyzacja L2 jest lepiej dostosowana do rozwiązywania problemów współliniowości w porównaniu z regularyzacją L1.
W praktyce można zastosować kombinację regularyzacji L1 i L2, znaną jako regularyzacja elastycznej sieci, aby skorzystać z obu technik, wykorzystując rzadkość L1 i stabilność L2.