Régularisation L1 et L2 dans l'apprentissage automatique

Lasso
L1Régularisation
Surajustement
L2Régularisation
Régularisation L1 et L2 dans l'apprentissage automatique cover image

Les techniques de régularisation telles que L1 et L2 sont utilisées pour empêcher l'ajustement excessif des modèles d'apprentissage automatique en pénalisant les coefficients importants.

La régularisation L1, également connue sous le nom de régularisation Lasso, ajoute un terme de pénalité proportionnel à la valeur absolue des coefficients des caractéristiques. Elle encourage la rareté en ramenant certains coefficients à zéro, ce qui permet de sélectionner les caractéristiques en éliminant celles qui sont moins importantes. Cette capacité de sélection des caractéristiques rend la régularisation L1 particulièrement utile lorsqu'il s'agit d'ensembles de données comportant un grand nombre de caractéristiques, car elle permet de simplifier les modèles en se concentrant sur les caractéristiques les plus pertinentes. La simplification du modèle qui en résulte réduit l'ajustement excessif.

En revanche, la régularisation L2, également connue sous le nom de régularisation Ridge, ajoute un terme de pénalité proportionnel au carré des coefficients des caractéristiques. Elle ne force pas les coefficients à devenir exactement nuls, mais les réduit vers zéro, de sorte que toutes les caractéristiques contribuent au modèle dans une certaine mesure. La régularisation L2 est efficace pour traiter la multicolinéarité et conduit généralement à des modèles plus stables mais moins clairsemés que la régularisation L1.

Les scénarios dans lesquels la régularisation L1 pourrait être plus bénéfique sont les suivants :

  • Ensembles de données à haute dimension avec de nombreuses caractéristiques : Lorsqu'il s'agit d'ensembles de données où l'espace des caractéristiques est large, la régularisation L1 aide à la sélection automatique des caractéristiques, améliorant ainsi l'interprétabilité et la performance du modèle.

  • Quand la rareté des caractéristiques est attendue*** : Dans les domaines où l'on s'attend à ce que seules quelques caractéristiques soient réellement influentes, la régularisation L1 permet d'identifier efficacement ces caractéristiques et de s'y concentrer.

Cependant, la régularisation L1 pourrait être moins efficace dans les scénarios où :

  • Toutes les caractéristiques sont supposées être importantes : Si l'on pense que la plupart des caractéristiques sont pertinentes et que l'exclusion de certaines d'entre elles pourrait entraîner une perte d'informations, L1 n'est peut-être pas le meilleur choix, car il tend à fixer les coefficients à zéro.

  • L'ensemble de données présente des problèmes de multicolinéarité : La régularisation L2 est mieux adaptée au traitement des problèmes de multicolinéarité que la régularisation L1.

En pratique, une combinaison des régularisations L1 et L2, connue sous le nom de Elastic Net regularization, peut être utilisée pour bénéficier des deux techniques, en tirant parti de la rareté de L1 et de la stabilité de L2.


Career Services background pattern

Services de carrière

Contact Section background image

Restons en contact

Code Labs Academy © 2024 Tous droits réservés.