지도 학습
지도 학습에는 레이블이 지정된 데이터 세트에 대한 모델 교육이 포함됩니다. 레이블이 지정된 데이터는 입력 데이터가 올바른 출력과 쌍을 이룬다는 의미입니다. 목표는 모델이 입력과 출력 사이의 매핑이나 관계를 학습하여 보이지 않는 새로운 데이터를 정확하게 예측하거나 분류할 수 있도록 하는 것입니다. 지도 학습에는 두 가지 주요 유형이 있습니다.
-
분류: 여기에는 범주형 라벨을 예측하는 작업이 포함됩니다. 예를 들어 특정 기능(예: 사용된 단어, 보낸 사람 등)을 기반으로 이메일이 스팸인지 스팸이 아닌지 판단합니다. SVM(Support Vector Machine), 의사결정 트리, 신경망과 같은 알고리즘이 분류에 사용됩니다.
-
회귀: 연속 값 예측과 관련됩니다. 예를 들어 면적, 침실 수 등과 같은 특성을 기반으로 주택 가격을 예측합니다. 회귀 작업에는 선형 회귀, 랜덤 포레스트 및 그라데이션 부스팅과 같은 알고리즘이 사용됩니다.
비지도 학습
비지도 학습에는 레이블이 지정되지 않은 데이터 세트에 대한 모델 학습이 포함됩니다. 여기서 알고리즘은 명시적인 감독 없이 데이터에서 숨겨진 패턴이나 고유 구조를 찾으려고 시도합니다. 목표는 데이터를 탐색하고, 그 구조를 이해하고, 의미 있는 통찰력을 추출하는 것입니다. 비지도 학습의 일반적인 유형은 다음과 같습니다.
-
클러스터링: 특정 기능이나 유사성을 기반으로 유사한 데이터 포인트를 그룹화합니다. 예를 들어 K-Means 또는 계층적 클러스터링과 같은 알고리즘을 사용하여 구매 행동을 기반으로 고객 세그먼트를 클러스터링합니다.
-
차원성 감소: 필수 정보를 유지하면서 기능 수를 줄입니다. 주성분 분석(PCA)과 t-SNE(t-Distributed Stochastic Neighbor Embedding)는 고차원 데이터를 저차원 공간에서 시각화하는 데 사용됩니다.
각 사용 시기
-
지도 학습은 데이터에 레이블이 지정되어 있고 해당 레이블이 지정된 데이터를 기반으로 향후 인스턴스를 예측하거나 분류하려는 경우에 사용됩니다. 예를 들어 고객 구매에 대한 기록 데이터가 있고 향후 구매를 예측하려는 경우 지도 학습이 적합합니다.
-
비지도 학습은 레이블이 지정된 데이터가 없거나 데이터의 기본 구조를 탐색하고 이해하려는 경우에 사용됩니다. 예를 들어 이상 감지 또는 대규모 데이터 세트에서 숨겨진 패턴을 찾는 경우입니다.
때로는 반지도 학습으로 알려진 두 가지 학습 유형의 조합을 사용하여 소량의 레이블이 지정된 데이터와 대량의 레이블이 지정되지 않은 데이터가 있는 경우 모델이 두 가지 정보 소스의 이점을 모두 얻을 수 있습니다. .