L1 や L2 などの正則化手法は、大きな係数にペナルティを与えることで機械学習モデルの過学習を防ぐために使用されます。
L1 正則化は、Lasso 正則化とも呼ばれ、特徴の係数の絶対値に比例するペナルティ項を追加します。一部の係数を正確に 0 に駆動することでスパース性を促進し、重要性の低い特徴を削除することで特徴選択を効果的に実行します。この特徴選択機能により、L1 正則化は、最も関連性の高い特徴に焦点を当ててモデルを簡素化するのに役立つため、多数の特徴を含むデータセットを扱う場合に特に役立ちます。結果としてモデルが単純化され、過剰適合が減少します。
一方、リッジ正則化としても知られる L2 正則化では、特徴の係数の 2 乗に比例するペナルティ項が追加されます。係数を正確にゼロにすることを強制するのではなく、係数をゼロに向けて縮小し、すべての特徴がある程度モデルに寄与するようにします。 L2 正則化は多重共線性の処理に効果的であり、一般に L1 正則化と比較してより安定していますが、スパースの少ないモデルが得られます。
L1 正則化がより有益である可能性があるシナリオは次のとおりです。
-
多くの特徴を持つ高次元データセット: 特徴空間が大きいデータセットを扱う場合、L1 正則化は特徴の自動選択に役立ち、モデルの解釈性とパフォーマンスが向上します。
-
機能の希薄性が予想される場合: 実際に影響を与える機能が少数であることが予想されるドメインでは、L1 正則化によりそれらの機能を効率的に特定し、焦点を当てることができます。
ただし、次のようなシナリオでは、L1 正則化の効果が低くなる可能性があります。
-
すべての特徴が重要であると想定されている: ほとんどの特徴が関連しており、いずれかを除外すると情報が失われる可能性があると考えられる場合、係数を 0 に設定する傾向があるため、L1 は最適な選択ではない可能性があります。
-
データセットには多重共線性の問題があります: L2 正則化は、L1 正則化と比較して多重共線性問題の処理に適しています。
実際には、Elastic Net 正則化 として知られる L1 正則化と L2 正則化の組み合わせを使用すると、L1 のスパース性と L2 の安定性を活用して、両方の技術のメリットを得ることができます。