기계 학습의 과적합 및 과소적합

August 02, 2024에서 업데이트 2 분을 읽습니다

과적합과 과소적합은 새로운, 보이지 않는 데이터를 일반화하는 능력에 영향을 미치는 기계 학습 모델의 일반적인 문제입니다.

과적합은 모델이 학습 데이터의 기본 패턴을 학습할 뿐만 아니라 해당 데이터에 존재하는 노이즈 및 무작위 변동도 학습할 때 발생합니다. 결과적으로 모델은 훈련 데이터에 대해 매우 잘 수행되지만 본질적으로 훈련 세트를 기억했기 때문에 새로운, 보이지 않는 데이터에 일반화하는 데 실패합니다.

반면에 과소적합은 모델이 너무 단순해서 학습 데이터의 기본 패턴을 포착할 수 없을 때 발생합니다. 훈련 데이터뿐만 아니라 새로운 데이터에서도 성능이 좋지 않습니다. 데이터에 존재하는 관계와 복잡성을 학습하지 못하기 때문입니다.

과적합과 과소적합을 방지하는 방법

교차 검증: k-겹 교차 검증과 같은 기술을 사용하여 데이터의 다양한 하위 집합에 대한 모델 성능을 평가합니다. 모델이 새로운 데이터에 얼마나 잘 일반화되는지 예측하는 데 도움이 됩니다.
훈련-테스트 분할: 데이터를 별도의 훈련 세트와 테스트 세트로 분할합니다. 훈련 세트에서 모델을 훈련하고 테스트 세트에서 성능을 평가합니다. 이는 모델이 보이지 않는 데이터에 얼마나 잘 일반화되는지 평가하는 데 도움이 됩니다.
특성 선택/축소: 가장 관련성이 높은 특성만 선택하거나 주성분 분석(PCA)과 같은 기술을 사용하여 데이터의 차원을 줄여 모델의 복잡성을 줄입니다.
정규화: L1 또는 L2 정규화와 같은 기술은 모델의 목적 함수에 복잡성에 대한 페널티를 추가하여 데이터의 노이즈를 너무 가깝게 맞추는 것을 방지합니다.
앙상블 방법: 여러 모델을 결합하여 과적합과 과소적합을 줄입니다. 배깅, 부스팅 또는 스태킹과 같은 기술은 여러 모델을 사용하여 전반적인 성능과 일반화를 향상시킵니다.
초매개변수 조정: 편향의 균형을 맞추는 최적의 구성을 찾기 위해 그리드 검색 또는 무작위 검색과 같은 기술을 사용하여 모델 초매개변수(학습률, 의사결정 트리의 깊이 등)를 조정합니다. 그리고 변화.
조기 중지: 훈련 중에 검증 세트에 대한 모델 성능을 모니터링하고 성능이 저하되기 시작하면 훈련 프로세스를 중지하여 과적합을 방지합니다.
더 많은 데이터: 데이터 양을 늘리면 기본 분포의 더욱 다양하고 대표적인 샘플을 제공하여 모델을 더 효과적으로 일반화하는 데 도움이 될 수 있습니다.

모델 복잡성과 일반화 사이의 적절한 균형을 찾는 것은 과적합과 과소적합을 방지하는 데 중요하며 이러한 기술은 이러한 균형을 달성하는 데 도움이 됩니다.