기계 학습의 L1 및 L2 정규화

August 02, 2024에서 업데이트 2 분을 읽습니다

L1 및 L2와 같은 정규화 기술은 큰 계수에 불이익을 주어 기계 학습 모델의 과적합을 방지하는 데 사용됩니다.

Lasso 정규화라고도 알려진 L1 정규화는 특성 계수의 절대값에 비례하는 페널티 항을 추가합니다. 일부 계수를 정확히 0으로 유도하여 희소성을 장려하고 덜 중요한 특성을 제거하여 특성 선택을 효과적으로 수행합니다. 이 기능 선택 기능을 사용하면 L1 정규화가 가장 관련성이 높은 기능에 집중하여 모델을 단순화하는 데 도움이 되므로 많은 기능이 포함된 데이터 세트를 처리할 때 특히 유용합니다. 결과적으로 모델이 단순화되어 과적합이 줄어듭니다.

반면, Ridge 정규화라고도 알려진 L2 정규화는 특징 계수의 제곱에 비례하는 페널티 항을 추가합니다. 계수가 정확히 0이 되도록 강제하는 것이 아니라 0으로 축소하여 모든 기능이 모델에 어느 정도 기여하도록 합니다. L2 정규화는 다중 공선성을 처리하는 데 효과적이며 일반적으로 L1 정규화에 비해 더 안정적이지만 덜 희박한 모델을 생성합니다.

L1 정규화가 더 유리할 수 있는 시나리오는 다음과 같습니다.

특성이 많은 고차원 데이터 세트: 특성 공간이 큰 데이터 세트를 처리할 때 L1 정규화는 자동 특성 선택에 도움이 되어 모델 해석 가능성과 성능을 향상시킵니다.
기능 희소성이 예상되는 경우: 소수의 기능만이 실제로 영향을 미칠 것으로 예상되는 도메인에서 L1 정규화는 이러한 기능을 효율적으로 식별하고 집중할 수 있습니다.

그러나 다음과 같은 시나리오에서는 L1 정규화가 덜 효과적일 수 있습니다.

모든 기능이 중요하다고 가정됨: 대부분의 기능이 관련성이 있고 일부 기능을 제외하면 정보가 손실될 수 있다는 믿음이 있는 경우 L1은 계수를 0으로 설정하는 경향이 있으므로 최선의 선택이 아닐 수 있습니다.
데이터세트에 다중 공선성 문제가 있습니다: L2 정규화는 L1 정규화에 비해 다중 공선성 문제를 처리하는 데 더 적합합니다.

실제로 Elastic Net 정규화라고 알려진 L1 및 L2 정규화의 조합을 사용하면 L1의 희소성과 L2의 안정성을 활용하여 두 기술의 이점을 모두 누릴 수 있습니다.