เมื่อประเมินประสิทธิภาพของโมเดลการจัดหมวดหมู่ คุณสามารถใช้เมตริกได้หลายรายการ แต่เมตริกที่พบบ่อยที่สุด 3 รายการ ได้แก่ ความแม่นยำ การเรียกคืน และ คะแนน F1
ความแม่นยำ:
ความแม่นยำ วัดความแม่นยำของการคาดการณ์เชิงบวกที่ทำโดยแบบจำลอง คำนวณเป็นอัตราส่วนของการทำนายเชิงบวกที่แท้จริงต่อจำนวนการคาดการณ์เชิงบวกทั้งหมด (ผลบวกจริง + ผลบวกลวง) พูดง่ายๆ ก็คือ ความแม่นยำจะตอบคำถาม: "ในบรรดารายการทั้งหมดที่แบบจำลองคาดการณ์ว่าเป็นบวก มีกี่รายการที่เป็นเชิงบวกจริง ๆ" ความแม่นยำสูงหมายความว่าเมื่อแบบจำลองคาดการณ์บางสิ่งที่เป็นบวก มักจะถูกต้อง
จำ:
Recall วัดความสามารถของโมเดลในการระบุอินสแตนซ์เชิงบวกทั้งหมดอย่างถูกต้อง คำนวณเป็นอัตราส่วนของการคาดคะเนเชิงบวกที่แท้จริงต่อจำนวนอินสแตนซ์เชิงบวกจริงทั้งหมด (ผลบวกจริง + ผลลบลวง) โดยพื้นฐานแล้ว Recall จะตอบคำถาม: "ในบรรดารายการเชิงบวกที่เกิดขึ้นจริงทั้งหมด มีโมเดลที่ระบุได้ถูกต้องกี่รายการ" การเรียกคืนที่สูงบ่งชี้ว่าแบบจำลองสามารถระบุอินสแตนซ์เชิงบวกส่วนใหญ่ได้
คะแนน F1:
คะแนน F1 คือค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการจดจำ โดยจะให้คะแนนเดียวที่สมดุลทั้งความแม่นยำและการจดจำ คะแนนนี้มีประโยชน์อย่างยิ่งเมื่อคุณต้องการหาสมดุลระหว่างความแม่นยำและการจดจำ หรือ เมื่อคลาสไม่สมดุล คะแนน F1 มีตั้งแต่ 0 ถึง 1 โดยที่ค่าที่สูงกว่าบ่งบอกถึงประสิทธิภาพที่ดีขึ้น
เมื่อประเมินโมเดลการจัดหมวดหมู่ การพิจารณาเมตริกเหล่านี้ร่วมกันเป็นสิ่งสำคัญ ตัวอย่างเช่น แบบจำลองที่มีความแม่นยำสูงแต่การจดจำต่ำอาจมีความระมัดระวังมากเกินไปในการคาดการณ์เชิงบวก ในขณะที่แบบจำลองที่มีการจดจำสูงแต่ความแม่นยำต่ำอาจมีแนวคิดเสรีเกินไปในการทำนายเชิงบวก คะแนน F1 ช่วยรักษาสมดุลระหว่างสองเมตริกนี้
นอกจากนี้ ขึ้นอยู่กับปัญหาและข้อกำหนดเฉพาะ ตัวชี้วัดอื่นๆ เช่น ความแม่นยำ ความจำเพาะ เส้นโค้ง ROC (เส้นโค้งลักษณะการทำงานของตัวรับ) และ AUC (พื้นที่ใต้เส้นโค้ง ROC) ก็อาจมีคุณค่าในการประเมินประสิทธิภาพของแบบจำลองเช่นกัน