Học tập có giám sát
Học có giám sát liên quan đến việc đào tạo mô hình trên tập dữ liệu được gắn nhãn. Dữ liệu được gắn nhãn có nghĩa là dữ liệu đầu vào được ghép nối với đầu ra chính xác. Mục tiêu là để mô hình tìm hiểu ánh xạ hoặc mối quan hệ giữa đầu vào và đầu ra để có thể đưa ra dự đoán hoặc phân loại chính xác dữ liệu mới, chưa nhìn thấy. Có hai loại học tập có giám sát chính:
-
Phân loại: Điều này liên quan đến việc dự đoán nhãn phân loại. Ví dụ: xác định xem một email có phải là thư rác hay không dựa trên các tính năng nhất định (như từ ngữ được sử dụng, người gửi, v.v.). Các thuật toán như Máy vectơ hỗ trợ (SVM), Cây quyết định và Mạng thần kinh được sử dụng để phân loại.
-
Hồi quy: Liên quan đến việc dự đoán một giá trị liên tục. Ví dụ: dự đoán giá một ngôi nhà dựa trên các đặc điểm của nó như diện tích, số phòng ngủ, v.v. Các thuật toán như Hồi quy tuyến tính, Rừng ngẫu nhiên và Tăng cường độ dốc được sử dụng cho các tác vụ hồi quy.
Học không giám sát
Học không giám sát liên quan đến việc đào tạo mô hình trên tập dữ liệu không được gắn nhãn. Ở đây, thuật toán cố gắng tìm các mẫu ẩn hoặc cấu trúc nội tại trong dữ liệu mà không có bất kỳ sự giám sát rõ ràng nào. Mục đích là để khám phá dữ liệu, hiểu cấu trúc của nó và rút ra những hiểu biết có ý nghĩa. Các loại học tập không giám sát phổ biến bao gồm:
-
Phân cụm: Nhóm các điểm dữ liệu tương tự lại với nhau dựa trên các tính năng hoặc điểm tương đồng nhất định. Ví dụ: phân nhóm các phân khúc khách hàng dựa trên hành vi mua hàng của họ bằng các thuật toán như K-Means hoặc Phân cụm phân cấp.
-
Giảm kích thước: Giảm số lượng tính năng trong khi vẫn giữ lại thông tin cần thiết. Phân tích thành phần chính (PCA) và nhúng hàng xóm ngẫu nhiên phân phối t (t-SNE) được sử dụng để trực quan hóa dữ liệu nhiều chiều trong không gian có chiều thấp hơn.
Khi nào nên sử dụng mỗi cái
-
Học có giám sát được sử dụng khi bạn đã gắn nhãn dữ liệu và muốn dự đoán hoặc phân loại các trường hợp trong tương lai dựa trên dữ liệu được gắn nhãn đó. Ví dụ: nếu bạn có dữ liệu lịch sử về hoạt động mua hàng của khách hàng và muốn dự đoán các giao dịch mua hàng trong tương lai, thì phương pháp học có giám sát là phù hợp.
-
Học không giám sát được sử dụng khi bạn chưa gắn nhãn dữ liệu hoặc khi bạn muốn khám phá và hiểu cấu trúc cơ bản của dữ liệu. Ví dụ: trong phát hiện bất thường hoặc tìm các mẫu ẩn trong tập dữ liệu lớn.
Đôi khi, sự kết hợp của cả hai loại học tập, được gọi là học bán giám sát, có thể được sử dụng khi bạn có một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không được gắn nhãn, cho phép các mô hình hưởng lợi từ cả hai nguồn thông tin .