Tècniques de regularització com L1 i L2 s'utilitzen per evitar el sobreajust en els models d'aprenentatge automàtic penalitzant coeficients grans.
La regularització L1, també coneguda com regularització Lasso, afegeix un terme de penalització proporcional al valor absolut dels coeficients de les característiques. Fomenta l'escàs en conduir alguns coeficients a exactament zero, realitzant eficaçment la selecció de funcions eliminant les funcions menys importants. Aquesta capacitat de selecció de característiques fa que la regularització L1 sigui especialment útil quan es tracta de conjunts de dades amb un gran nombre de característiques, ja que ajuda a simplificar els models centrant-se en les característiques més rellevants. La simplificació del model resultant redueix el sobreajustament.
D'altra banda, la regularització L2, també coneguda com regularització Ridge, afegeix un terme de penalització proporcional al quadrat dels coeficients de les característiques. No obliga els coeficients a ser exactament zero, sinó que els redueix cap a zero, fent que totes les característiques contribueixin al model fins a cert punt. La regularització L2 és eficaç en el maneig de la multicolinearitat i generalment condueix a models més estables però menys dispersos en comparació amb la regularització L1.
Els escenaris on la regularització de L1 podria ser més beneficiosa inclouen:
-
Conjunts de dades d'alta dimensió amb moltes característiques: quan es tracta de conjunts de dades on l'espai de característiques és gran, la regularització L1 ajuda a la selecció automàtica de característiques, millorant la interpretació i el rendiment del model.
-
Quan s'espera una dispersió de característiques: en dominis on es preveu que només algunes característiques siguin realment influents, la regularització L1 pot identificar i centrar-se en aquestes característiques de manera eficient.
Tanmateix, la regularització de L1 pot ser menys efectiva en escenaris en què:
-
S'assumeix que totes les característiques són importants: si es creu que la majoria de les característiques són rellevants i si n'exclou-ne qualsevol pot provocar pèrdua d'informació, és possible que L1 no sigui la millor opció, ja que tendeix a posar els coeficients a zero.
-
El conjunt de dades té problemes de multicolinealitat: la regularització L2 és més adequada per gestionar problemes de multicolinealitat en comparació amb la regularització L1.
A la pràctica, una combinació de regularització L1 i L2, coneguda com a regularització de la xarxa elàstica, es pot utilitzar per beneficiar-se d'ambdues tècniques, aprofitant l'esparsa de L1 i l'estabilitat de L2.