Técnicas de regularização como L1 e L2 são usadas para evitar overfitting em modelos de aprendizado de máquina, penalizando grandes coeficientes.
A regularização L1, também conhecida como regularização Lasso, adiciona um termo de penalidade proporcional ao valor absoluto dos coeficientes dos recursos. Ele incentiva a dispersão ao levar alguns coeficientes a exatamente zero, realizando efetivamente a seleção de recursos ao eliminar recursos menos importantes. Esta capacidade de seleção de recursos torna a regularização L1 particularmente útil ao lidar com conjuntos de dados com um grande número de recursos, pois ajuda a simplificar os modelos, concentrando-se nos recursos mais relevantes. A simplificação do modelo resultante reduz o sobreajuste.
Por outro lado, a regularização L2, também conhecida como regularização Ridge, adiciona um termo de penalidade proporcional ao quadrado dos coeficientes dos recursos. Isso não força os coeficientes a se tornarem exatamente zero, mas, em vez disso, os reduz para zero, fazendo com que todos os recursos contribuam até certo ponto para o modelo. A regularização L2 é eficaz no tratamento da multicolinearidade e geralmente leva a modelos mais estáveis, mas menos esparsos, em comparação com a regularização L1.
Os cenários em que a regularização L1 pode ser mais benéfica incluem:
-
Conjuntos de dados de alta dimensão com muitos recursos: Ao lidar com conjuntos de dados onde o espaço de recursos é grande, a regularização L1 ajuda na seleção automática de recursos, melhorando a interpretabilidade e o desempenho do modelo.
-
Quando a escassez de recursos é esperada: em domínios onde se prevê que apenas alguns recursos sejam realmente influentes, a regularização L1 pode identificar e focar com eficiência nesses recursos.
No entanto, a regularização L1 pode ser menos eficaz em cenários onde:
-
Todos os recursos são considerados importantes: Se houver uma crença de que a maioria dos recursos são relevantes e a exclusão de qualquer um pode causar perda de informações, L1 pode não ser a melhor escolha, pois tende a definir os coeficientes como zero.
-
O conjunto de dados tem problemas de multicolinearidade: a regularização L2 é mais adequada para lidar com problemas de multicolinearidade em comparação com a regularização L1.
Na prática, uma combinação de regularização L1 e L2, conhecida como regularização Elastic Net, pode ser usada para se beneficiar de ambas as técnicas, aproveitando a dispersão de L1 e a estabilidade de L2.