Học tương phản là một kỹ thuật được sử dụng trong học tập tự giám sát để tạo ra các biểu diễn có ý nghĩa từ dữ liệu không được gắn nhãn bằng cách tận dụng khái niệm điểm tương đồng và khác biệt giữa các chế độ xem khác nhau của cùng một dữ liệu.
Khái niệm cơ bản
-
Cặp dương và âm
-
Cặp tích cực: Đây là cặp phiên bản tăng cường của cùng một phiên bản dữ liệu. Ví dụ: chụp cùng một hình ảnh và áp dụng các phép biến đổi khác nhau (như xoay, cắt, biến dạng màu, v.v.) để tạo các chế độ xem khác nhau cho cùng một nội dung.
-
Cặp phủ định: Chúng bao gồm các trường hợp dữ liệu khác nhau. Trong bối cảnh học tập tương phản, các cặp phủ định thường được tạo ra bằng cách chụp các hình ảnh khác nhau hoặc các phiên bản hình ảnh được tăng cường khác nhau.
-
Mục tiêu: Mục tiêu của học tương phản là khuyến khích mô hình đưa các biểu diễn của các cặp dương gần nhau hơn trong không gian đặc trưng đã học, đồng thời đẩy các biểu diễn của các cặp âm ra xa nhau hơn.
-
Hàm mất mát: Các hàm mất mát tương phản, như mất mát InfoNCE (Ước tính tương phản tiếng ồn) hoặc mất mát NT-Xent (Entropy chéo tỷ lệ nhiệt độ chuẩn hóa), thường được sử dụng. Những tổn thất này gây thiệt hại cho mô hình khi khoảng cách giữa các biểu diễn của các cặp dương quá xa và khuyến khích khoảng cách lớn hơn giữa các biểu diễn của các cặp âm.
Tận dụng các thành phần
-
Các biện pháp tương tự
-
Học tập tương phản dựa trên các biện pháp tương tự như độ tương tự cosine, khoảng cách Euclide hoặc tích số chấm để định lượng độ gần hoặc khoảng cách giữa các biểu diễn trong không gian đã học.
-
Chiến lược tăng cường
-
Tăng cường dữ liệu đóng một vai trò quan trọng trong học tập tương phản bằng cách tạo ra các chế độ xem đa dạng của cùng một dữ liệu, cho phép mô hình tìm hiểu các tính năng bất biến qua các phép biến đổi khác nhau.
-
Kích thước lô
-
Kích thước lô lớn hơn thường có lợi trong việc học tương phản vì chúng cung cấp các mẫu đa dạng hơn cho từng bước tối ưu hóa, hỗ trợ việc học các biểu diễn tốt hơn.
Tác động và ứng dụng
-
Tầm nhìn máy tính: Học tập tương phản đã mang lại hiệu quả cao trong việc học cách biểu diễn cho các tác vụ dựa trên hình ảnh như phân loại hình ảnh, phát hiện đối tượng và phân đoạn.
-
Xử lý ngôn ngữ tự nhiên: Nó cho thấy nhiều hứa hẹn trong việc học cách nhúng câu hoặc tài liệu, cải thiện các nhiệm vụ như hiểu và dịch ngôn ngữ.
-
Hệ thống đề xuất: Bằng cách tìm hiểu các cách trình bày có ý nghĩa về sở thích của người dùng hoặc tính năng của mặt hàng, hệ thống có thể nâng cao các thuật toán đề xuất.
Hiệu quả và thách thức
-
Tính hiệu quả: Học tập tương phản đã cho thấy kết quả ấn tượng, đặc biệt là trong các tình huống mà dữ liệu được dán nhãn khan hiếm hoặc tốn kém để có được.
-
Thách thức: Điều chỉnh siêu tham số, lựa chọn chiến lược tăng cường phù hợp và quản lý tài nguyên tính toán một cách hiệu quả là những thách thức trong học tập tương phản.
Việc triển khai thực tế thường liên quan đến các kiến trúc tùy chỉnh như mạng Siamese, Độ tương phản động lượng (MoCo), SimCLR (Khung đơn giản để học tương phản về biểu diễn trực quan) hoặc các biến thể khác để tìm hiểu hiệu quả các cách biểu diễn từ dữ liệu chưa được gắn nhãn trên nhiều miền khác nhau.