반지도 학습은 레이블이 있는 데이터와 라벨이 지정되지 않은 데이터를 모두 활용하여 모델을 학습시키는 머신러닝 패러다임입니다. 대부분의 실제 시나리오에서 레이블이 지정된 데이터를 획득하는 것은 비용이 많이 들거나, 시간이 많이 걸리거나 다양한 제약으로 인해 단순히 어려울 수 있습니다. 반면에 레이블이 지정되지 않은 데이터는 더 풍부하고 얻기 쉬운 경우가 많습니다. 준지도 학습은 두 가지 유형의 데이터를 모두 활용하여 모델 성능을 향상시키는 것을 목표로 합니다.
라벨이 있는 데이터와 라벨이 없는 데이터 활용
- 레이블이 있는 데이터와 레이블이 없는 데이터 결합: 기본 원칙에는 레이블이 없는 더 큰 데이터 세트와 함께 더 작은 레이블이 있는 데이터 세트를 사용하여 모델을 교육하는 것이 포함됩니다. 레이블이 지정된 데이터는 알려진 결과가 포함된 구체적인 예를 제공하여 모델의 학습을 안내하는 데 도움이 되는 반면, 레이블이 지정되지 않은 데이터는 기본 데이터 분포에 대한 모델의 이해에 기여하고 더 나은 일반화를 돕습니다.
준지도 알고리즘은 일반적으로 다음 두 가지 주요 방식 중 하나로 작동합니다.
-
자가 훈련/공동 훈련: 이 방법은 해당 데이터에 대한 모델의 예측을 사용하여 레이블이 지정되지 않은 데이터에 반복적으로 레이블을 지정한 다음 확장된 레이블이 지정된 데이터 세트를 사용하여 모델을 재교육합니다.
-
그래프 기반 방법: 노드는 인스턴스를 나타내고 가장자리는 관계를 나타내는 데이터의 그래프 표현을 만듭니다. 이러한 알고리즘은 그래프 구조를 사용하여 레이블이 지정된 인스턴스에서 레이블이 지정되지 않은 인스턴스로 레이블을 전파합니다.
장점
-
레이블이 지정된 데이터에 대한 의존도 감소: 준지도 학습은 대량의 레이블이 지정된 데이터에 대한 필요성을 크게 줄여 레이블 지정이 리소스 집약적인 시나리오에서 비용 효율적이고 실용적입니다.
-
향상된 일반화: 레이블이 지정되지 않은 데이터를 활용하면 보이지 않는 사례에 대한 더 나은 일반화를 통해 더욱 강력한 모델을 만드는 데 도움이 되는 경우가 많습니다. 이 모델은 기본 데이터 분포에 대한 더 깊은 이해를 얻습니다.
과제 및 고려 사항
-
레이블이 지정되지 않은 데이터의 품질: 레이블이 지정되지 않은 데이터에는 노이즈, 이상치 또는 관련 없는 정보가 포함될 수 있으며, 이는 제대로 처리되지 않을 경우 모델 성능에 영향을 미칠 수 있습니다.
-
데이터 분포에 대한 가정: 준지도 방법은 종종 기본 데이터 분포에 대한 가정에 의존합니다. 이러한 가정이 성립하지 않으면 차선의 결과가 나올 수 있습니다.
-
모델 편향: 모델은 레이블이 지정되지 않은 데이터에 존재하는 편향을 잠재적으로 상속하여 예측 및 일반화에 영향을 미칠 수 있습니다.
-
알고리즘 복잡성: 준지도 알고리즘을 구현하려면 지도 학습 방법에 비해 더 많은 계산 리소스와 조정이 필요할 수 있습니다.
적용 가능성
준지도 학습은 다음과 같은 시나리오에서 빛을 발합니다.
-
라벨이 붙은 데이터(예: 주석이 달린 이미지)가 제한적인 의료 영상.
-
라벨이 붙은 텍스트 데이터를 획득하는 데 비용이 많이 드는 자연어 처리 작업.
-
이상이 드물고 레이블이 지정된 인스턴스를 얻는 것이 어려운 이상 감지입니다.
준지도 학습은 레이블이 없는 데이터를 사용하여 귀중한 이점을 제공하지만 성공 여부는 레이블이 없는 사용 가능한 데이터의 품질과 양, 선택한 알고리즘의 적합성 및 실제 데이터 분포와 가정의 호환성에 크게 좌우됩니다. 이러한 문제를 효과적으로 처리하면 특히 레이블이 지정된 데이터가 부족하거나 비용이 많이 드는 시나리오에서 모델 성능이 크게 향상될 수 있습니다.