Las técnicas de regularización como L1 y L2 se utilizan para evitar el sobreajuste en modelos de aprendizaje automático al penalizar coeficientes grandes.
La regularización L1, también conocida como regularización Lasso, agrega un término de penalización proporcional al valor absoluto de los coeficientes de las características. Fomenta la escasez al llevar algunos coeficientes exactamente a cero, realizando de manera efectiva la selección de características eliminando características menos importantes. Esta capacidad de selección de características hace que la regularización L1 sea particularmente útil cuando se trata de conjuntos de datos con una gran cantidad de características, ya que ayuda a simplificar los modelos al centrarse en las características más relevantes. La simplificación del modelo resultante reduce el sobreajuste.
Por otro lado, la regularización L2, también conocida como regularización Ridge, agrega un término de penalización proporcional al cuadrado de los coeficientes de las características. No obliga a los coeficientes a ser exactamente cero, sino que los reduce a cero, haciendo que todas las características contribuyan al modelo hasta cierto punto. La regularización L2 es eficaz para manejar la multicolinealidad y generalmente conduce a modelos más estables pero menos dispersos en comparación con la regularización L1.
Los escenarios en los que la regularización de la L1 podría ser más beneficiosa incluyen:
-
Conjuntos de datos de alta dimensión con muchas características: cuando se trata de conjuntos de datos donde el espacio de características es grande, la regularización L1 ayuda en la selección automática de características, lo que mejora la interpretabilidad y el rendimiento del modelo.
-
Cuando se espera escasez de características: en dominios donde se anticipa que solo unas pocas características son realmente influyentes, la regularización L1 puede identificar y centrarse de manera eficiente en esas características.
Sin embargo, la regularización L1 podría ser menos efectiva en escenarios donde:
-
Se supone que todas las características son importantes: si se cree que la mayoría de las características son relevantes y excluir alguna podría causar pérdida de información, L1 podría no ser la mejor opción, ya que tiende a establecer los coeficientes en cero.
-
El conjunto de datos tiene problemas de multicolinealidad: la regularización L2 es más adecuada para manejar problemas de multicolinealidad en comparación con la regularización L1.
En la práctica, se puede utilizar una combinación de regularización L1 y L2, conocida como regularización de Elastic Net, para beneficiarse de ambas técnicas, aprovechando la escasez de L1 y la estabilidad de L2.