Xác thực chéo là một kỹ thuật quan trọng được sử dụng để đánh giá mức độ hiệu quả của một mô hình trên dữ liệu mới. Mục tiêu chính là đánh giá hiệu suất của mô hình theo cách giảm thiểu các vấn đề như trang bị quá mức (khi mô hình học quá nhiều từ dữ liệu huấn luyện và hoạt động kém trên dữ liệu chưa được nhìn thấy) và trang bị thiếu (khi mô hình quá đơn giản để nắm bắt các mẫu trong dữ liệu).
Khái niệm này bao gồm chia dữ liệu có sẵn thành nhiều tập hợp con, thường là hai phần chính: tập huấn luyện và tập xác thực (đôi khi còn được gọi là tập kiểm tra).
Một kỹ thuật phổ biến là xác thực chéo k-Fold:
-
Tập dữ liệu được chia thành các tập con (hoặc tập gấp) 'k' có kích thước xấp xỉ bằng nhau.
-
Mô hình được huấn luyện 'k' lần, mỗi lần sử dụng một nếp gấp khác nhau làm tập xác thực và các nếp gấp còn lại làm tập huấn luyện.
-
Ví dụ: trong xác thực chéo 5 lần, dữ liệu được chia thành năm tập hợp con. Mô hình được huấn luyện năm lần, mỗi lần sử dụng một trong năm tập con khác nhau làm tập xác thực và bốn tập còn lại làm tập huấn luyện.
-
Các số liệu hiệu suất (như độ chính xác, độ chính xác, khả năng thu hồi, v.v.) được tính trung bình trên các lần lặp 'k' này để có được ước tính hiệu suất cuối cùng.
Các kỹ thuật phổ biến khác bao gồm
Xác thực chéo một lần (LOOCV)
-
Mỗi điểm dữ liệu đóng vai trò là một tập hợp xác thực và mô hình được huấn luyện trên phần dữ liệu còn lại.
-
Phương pháp này tốn kém về mặt tính toán đối với các tập dữ liệu lớn nhưng có thể khá chính xác vì nó sử dụng gần như toàn bộ dữ liệu để huấn luyện.
Xác thực chéo phân tầng
- Đảm bảo rằng mỗi lần gấp là đại diện cho toàn bộ tập dữ liệu. Nó duy trì sự phân bổ lớp trong mỗi lần, điều này rất hữu ích cho các tập dữ liệu mất cân bằng.
Xác thực chéo rất quan trọng vì nó cung cấp ước tính đáng tin cậy hơn về hiệu suất của mô hình trên dữ liệu không nhìn thấy được so với phân tách thử nghiệm đào tạo duy nhất. Nó giúp xác định các vấn đề như trang bị quá mức hoặc trang bị không đầy đủ bằng cách cung cấp ước tính mạnh mẽ hơn về cách mô hình sẽ khái quát hóa cho dữ liệu mới.
Bằng cách sử dụng xác thực chéo, những người thực hành máy học có thể đưa ra quyết định tốt hơn về việc lựa chọn mô hình, điều chỉnh siêu tham số và đánh giá hiệu suất khái quát hóa của mô hình trên dữ liệu không nhìn thấy được.