정규화는 과적합을 방지하고 모델의 일반화를 개선하는 데 사용되는 일련의 기술을 의미합니다. 과적합은 모델이 훈련 데이터를 너무 잘 학습하여 보이지 않는 새로운 데이터에 적용되지 않는 노이즈와 특정 세부 사항을 포착할 때 발생합니다. 정규화는 모델의 목적 함수에 페널티 항을 추가하여 지나치게 복잡한 모델을 억제함으로써 이를 제어하는 데 도움이 됩니다.
두 가지 일반적인 정규화 유형은 L1 및 L2 정규화입니다.
L1 정규화(올가미 회귀):
-
L1 정규화는 모델 계수의 절대값과 동일한 비용 함수에 페널티 항을 추가합니다.
-
일부 계수를 정확히 0으로 축소하여 특징 선택을 효과적으로 수행함으로써 모델의 희소성을 장려합니다.
-
결과 모델은 가장 중요한 특성만 선택하고 관련성이 낮은 특성은 삭제하므로 더 간단하고 해석하기 쉽습니다.
L2 정규화(능형 회귀):
-
L2 정규화는 모델 계수의 크기 제곱과 동일한 비용 함수에 페널티 항을 추가합니다.
-
덜 중요한 특성의 계수를 0으로 축소하는 경향이 있지만 정확히 0으로 설정하는 경우는 거의 없습니다.
-
L2 정규화는 큰 가중치에 페널티를 적용하여 모델의 복잡성을 줄여 과적합을 방지하는 데 효과적입니다.
L1 및 L2 정규화 기술은 모두 과적합을 줄이고 보이지 않는 데이터를 일반화하는 모델의 능력을 향상시키는 데 도움이 됩니다. L1 정규화와 L2 정규화 사이의 선택은 종종 특정 문제, 기능의 성격 및 원하는 결과에 따라 달라집니다. 기능 선택 속성을 사용하는 Lasso(L1) 정규화는 가장 관련성이 높은 기능을 식별해야 할 때 선호됩니다. 능선(L2) 정규화는 모든 기능이 잠재적으로 중요하고 기능을 완전히 제거하지 않고 영향을 줄이는 것이 선호되는 경우에 적합합니다. 또한 Elastic Net 정규화라고 알려진 두 기술의 조합을 사용하면 L1 및 L2 정규화를 동시에 활용할 수 있습니다.