Saat mengevaluasi performa model klasifikasi, beberapa metrik dapat digunakan, namun tiga metrik yang paling umum adalah precision, recall, dan F1 score.
Presisi:
Presisi mengukur keakuratan prediksi positif yang dibuat oleh model. Ini dihitung sebagai rasio prediksi positif sebenarnya dengan jumlah total prediksi positif (positif benar + positif palsu). Secara sederhana, presisi menjawab pertanyaan: "Dari semua item yang diprediksi positif oleh model, berapa banyak yang benar-benar positif?". Presisi tinggi berarti ketika model memprediksi sesuatu sebagai sesuatu yang positif, biasanya model tersebut benar.
Mengingat:
Penarikan kembali mengukur kemampuan model untuk mengidentifikasi semua kejadian positif dengan benar. Nilai ini dihitung sebagai rasio prediksi positif sebenarnya dengan jumlah total kejadian positif aktual (positif sebenarnya + negatif palsu). Intinya, recall menjawab pertanyaan: "Dari semua item positif aktual, berapa banyak yang diidentifikasi dengan benar oleh model?". Ingatan yang tinggi menunjukkan bahwa model tersebut dapat mengidentifikasi sebagian besar contoh positif.
Skor F1:
Skor F1 adalah rata-rata harmonik antara presisi dan perolehan. Ini memberikan skor tunggal yang menyeimbangkan presisi dan perolehan. Skor ini sangat berguna ketika Anda ingin menemukan keseimbangan antara presisi dan perolehan atau saat kelas tidak seimbang. Skor F1 berkisar antara 0 hingga 1, dimana nilai yang lebih tinggi menunjukkan kinerja yang lebih baik.
Saat menilai model klasifikasi, penting untuk mempertimbangkan metrik ini secara bersamaan. Misalnya, model dengan presisi tinggi namun daya ingat rendah mungkin terlalu berhati-hati dalam membuat prediksi positif, sedangkan model dengan daya ingat tinggi tetapi presisi rendah mungkin terlalu liberal dalam memprediksi hal positif. Skor F1 membantu mencapai keseimbangan antara kedua metrik ini.
Selain itu, bergantung pada masalah dan persyaratan spesifik, metrik lain seperti akurasi, spesifisitas, kurva ROC (kurva karakteristik operasi penerima), dan AUC (area di bawah kurva ROC) juga dapat berguna untuk menilai performa model.