교차 검증 기술의 힘

August 02, 2024에서 업데이트 2 분을 읽습니다

교차 검증은 새 데이터에 대한 모델의 성능을 평가하는 데 사용되는 중요한 기술입니다. 주요 목표는 과적합(모델이 훈련 데이터에서 너무 많은 것을 배우고 보이지 않는 데이터에 대해 성능이 떨어지는 경우) 및 과소적합(모델이 너무 단순하여 패턴을 캡처할 수 없는 경우)과 같은 문제를 최소화하는 방식으로 모델의 성능을 평가하는 것입니다. 데이터).

이 개념에는 사용 가능한 데이터를 여러 하위 세트로 분할하는 작업이 포함되며, 일반적으로 훈련 세트와 검증 세트(때때로 테스트 세트라고도 함)라는 두 가지 주요 부분으로 구성됩니다.

일반적인 기술은 k-겹 교차 검증입니다.

데이터세트는 대략 동일한 크기의 ‘k’개 하위 집합(또는 접기)으로 나뉩니다.
모델은 ‘k’번 훈련되는데, 매번 다른 접기를 검증 세트로 사용하고 나머지 접기를 훈련 세트로 사용합니다.
예를 들어 5겹 교차 검증에서는 데이터가 5개의 하위 집합으로 나뉩니다. 모델은 5번 훈련되는데, 매번 5개의 하위 집합 중 다른 하나를 검증 세트로 사용하고 나머지 4개를 훈련 세트로 사용합니다.
성능 지표(정확도, 정밀도, 재현율 등)는 이러한 ‘k’ 반복에서 평균을 구하여 최종 성능 추정치를 얻습니다.

다른 일반적인 기술은 다음과 같습니다.

Leave-One-Out 교차 검증(LOOCV)

각 데이터 포인트는 검증 세트 역할을 하며 모델은 나머지 데이터에 대해 훈련됩니다.
이 방법은 대규모 데이터 세트의 경우 계산 비용이 많이 들지만 훈련에 거의 모든 데이터를 사용하므로 매우 정확할 수 있습니다.

계층화된 교차 검증

각 접기가 전체 데이터 세트를 대표하는지 확인합니다. 각 접기의 클래스 분포를 유지하므로 불균형한 데이터 세트에 유용합니다.

교차 검증은 단일 열차-테스트 분할에 비해 보이지 않는 데이터에 대한 모델 성능에 대한 보다 신뢰할 수 있는 추정을 제공하기 때문에 중요합니다. 모델이 새 데이터에 어떻게 일반화되는지에 대한 보다 강력한 추정치를 제공함으로써 과적합 또는 과소적합과 같은 문제를 식별하는 데 도움이 됩니다.

기계 학습 실무자는 교차 검증을 사용하여 모델 선택, 하이퍼파라미터 튜닝, 보이지 않는 데이터에 대한 모델의 일반화 성능 평가에 대해 더 나은 결정을 내릴 수 있습니다.