Regularización L1 e L2 en Machine Learning

Actualizado en September 24, 2024 2 Minutos lidos

As técnicas de regularización como L1 e L2 utilízanse para evitar o sobreajuste nos modelos de aprendizaxe automática penalizando coeficientes grandes.

A regularización L1, tamén coñecida como regularización Lasso, engade un termo de penalización proporcional ao valor absoluto dos coeficientes das características. Fomenta a escasez ao conducir algúns coeficientes a exactamente cero, realizando efectivamente a selección de funcións eliminando as características menos importantes. Esta capacidade de selección de características fai que a regularización L1 sexa especialmente útil cando se trata de conxuntos de datos cunha gran cantidade de características, xa que axuda a simplificar os modelos centrándose nas características máis relevantes. A simplificación do modelo resultante reduce o sobreajuste.

Por outra banda, a regularización L2, tamén coñecida como regularización Ridge, engade un termo de penalización proporcional ao cadrado dos coeficientes das características. Non obriga os coeficientes a converterse exactamente en cero, senón que os reduce a cero, facendo que todas as características contribúan ao modelo ata certo punto. A regularización L2 é eficaz no manexo da multicolinealidade e xeralmente conduce a modelos máis estables pero menos escasos en comparación coa regularización L1.

Os escenarios nos que a regularización da L1 pode ser máis beneficiosa inclúen:

Conxuntos de datos de gran dimensión con moitas características: cando se trata de conxuntos de datos nos que o espazo de características é grande, a regularización L1 axuda na selección automática de características, mellorando a interpretación e o rendemento do modelo.
Cando se espera escaseza de funcións: nos dominios nos que se prevé que só algunhas funcións teñan verdadeira influencia, a regularización de nivel 1 pode identificar e centrarse nesas funcións de forma eficiente.

Non obstante, a regularización L1 pode ser menos efectiva en escenarios nos que:

Suponse que todas as funcións son importantes: se se cre que a maioría das funcións son relevantes e excluír calquera pode causar perda de información, pode que L1 non sexa a mellor opción xa que adoita establecer os coeficientes en cero.
O conxunto de datos ten problemas de multicolinealidade: a regularización L2 é máis adecuada para manexar problemas de multicolinealidade en comparación coa regularización L1.

Na práctica, unha combinación de regularización L1 e L2, coñecida como Regularización Elastic Net, pódese utilizar para beneficiarse de ambas as técnicas, aproveitando a escasa de L1 e a estabilidade de L2.