Khi đánh giá hiệu suất của mô hình phân loại, một số chỉ số có thể được sử dụng, nhưng ba trong số những chỉ số phổ biến nhất là độ chính xác, thu hồi và điểm F1.
Độ chính xác:
Độ chính xác đo lường độ chính xác của các dự đoán tích cực do mô hình đưa ra. Nó được tính bằng tỷ lệ số dự đoán dương tính thực sự trên tổng số dự đoán tích cực (dương tính thật + dương tính giả). Nói một cách đơn giản, độ chính xác trả lời câu hỏi: "Trong tất cả các mục mà mô hình dự đoán là dương, có bao nhiêu mục thực sự dương?". Độ chính xác cao có nghĩa là khi mô hình dự đoán điều gì đó là tích cực thì nó thường đúng.
Nhớ lại:
Việc thu hồi đo lường khả năng của mô hình trong việc xác định chính xác tất cả các trường hợp tích cực. Nó được tính bằng tỷ lệ giữa số dự đoán dương tính thực sự trên tổng số trường hợp dương tính thực tế (dương tính thật + âm tính giả). Về bản chất, thu hồi trả lời câu hỏi: “Trong số tất cả các mục tích cực thực tế, mô hình đã xác định chính xác bao nhiêu mục?”. Khả năng thu hồi cao cho thấy mô hình có thể xác định hầu hết các trường hợp tích cực.
Điểm F1:
Điểm F1 là giá trị trung bình hài hòa của độ chính xác và khả năng thu hồi. Nó cung cấp một điểm số duy nhất cân bằng cả độ chính xác và khả năng thu hồi. Điểm này đặc biệt hữu ích khi bạn muốn tìm sự cân bằng giữa độ chính xác và khả năng thu hồi hoặc khi các lớp không cân bằng. Điểm F1 dao động từ 0 đến 1, trong đó giá trị cao hơn biểu thị hiệu suất tốt hơn.
Khi đánh giá một mô hình phân loại, điều quan trọng là phải xem xét các số liệu này cùng nhau. Ví dụ: một mô hình có độ chính xác cao nhưng độ thu hồi thấp có thể quá thận trọng trong việc đưa ra các dự đoán tích cực, trong khi một mô hình có độ thu hồi cao nhưng độ chính xác thấp có thể quá tự do trong việc dự đoán các mặt tích cực. Điểm F1 giúp đạt được sự cân bằng giữa hai chỉ số này.
Ngoài ra, tùy thuộc vào vấn đề và yêu cầu cụ thể, các số liệu khác như độ chính xác, độ đặc hiệu, đường cong ROC (đường cong đặc tính vận hành máy thu) và AUC (diện tích dưới đường cong ROC) cũng có thể có giá trị để đánh giá hiệu suất của mô hình.