Tehnicile de regularizare precum L1 și L2 sunt folosite pentru a preveni supraadaptarea în modelele de învățare automată prin penalizarea coeficienților mari.
Regularizarea L1, cunoscută și sub denumirea de regularizare Lasso, adaugă un termen de penalizare proporțional cu valoarea absolută a coeficienților caracteristicilor. Încurajează dispersitatea prin conducerea unor coeficienți la exact zero, efectuând în mod eficient selecția caracteristicilor prin eliminarea caracteristicilor mai puțin importante. Această capacitate de selecție a caracteristicilor face ca regularizarea L1 să fie deosebit de utilă atunci când se lucrează cu seturi de date cu un număr mare de caracteristici, deoarece ajută la simplificarea modelelor concentrându-se pe cele mai relevante caracteristici. Simplificarea modelului rezultată reduce supraadaptarea.
Pe de altă parte, regularizarea L2, cunoscută și ca regularizare Ridge, adaugă un termen de penalizare proporțional cu pătratul coeficienților caracteristicilor. Nu forțează coeficienții să devină exact zero, ci îi micșorează spre zero, făcând ca toate caracteristicile să contribuie la model într-o oarecare măsură. Regularizarea L2 este eficientă în gestionarea multicoliniarității și, în general, duce la modele mai stabile, dar mai puțin rare, în comparație cu regularizarea L1.
Scenariile în care regularizarea L1 ar putea fi mai benefică includ:
-
Seturi de date cu dimensiuni înalte, cu multe caracteristici: atunci când aveți de-a face cu seturi de date în care spațiul de caracteristici este mare, regularizarea L1 ajută la selectarea automată a caracteristicilor, îmbunătățind interpretabilitatea și performanța modelului.
-
Când se așteaptă lipsa caracteristicilor: în domeniile în care se anticipează că doar câteva caracteristici sunt cu adevărat influente, regularizarea L1 poate identifica și concentra eficient asupra acelor caracteristici.
Cu toate acestea, regularizarea L1 ar putea fi mai puțin eficientă în scenariile în care:
-
Se presupune că toate caracteristicile sunt importante: dacă există convingerea că majoritatea caracteristicilor sunt relevante și excluderea acestora ar putea cauza pierderea de informații, L1 ar putea să nu fie cea mai bună alegere, deoarece tinde să seteze coeficienții la zero.
-
Setul de date are probleme de multicoliniaritate: regularizarea L2 este mai potrivită pentru gestionarea problemelor de multicoliniaritate în comparație cu regularizarea L1.
În practică, o combinație de regularizare L1 și L2, cunoscută sub denumirea de Regularizare Elastic Net, poate fi utilizată pentru a beneficia de ambele tehnici, valorificând dispersitatea L1 și stabilitatea L2.