การโอเวอร์ฟิต เกิดขึ้นเมื่อโมเดลเรียนรู้ไม่เพียงแต่รูปแบบที่ซ่อนอยู่ในข้อมูลการฝึกเท่านั้น แต่ยังรวมถึง สัญญาณรบกวน และ ความสุ่ม ที่ปรากฏในชุดข้อมูลเฉพาะนั้นด้วย ซึ่งส่งผลให้โมเดล ทำงานได้ดีมากกับข้อมูลการฝึกอบรม แต่ ไม่สามารถสรุป กับข้อมูลใหม่ที่มองไม่เห็นได้
บัตรประจำตัว
-
ความแม่นยำในการฝึกสูง ความแม่นยำในการทดสอบต่ำ: หนึ่งในตัวชี้วัดหลักคือเมื่อแบบจำลองทำงานได้ดีเป็นพิเศษกับข้อมูลการฝึก แต่ไม่ดีกับข้อมูลการทดสอบหรือการตรวจสอบ
-
ความซับซ้อนของโมเดล: โมเดล Overfit มีแนวโน้มที่จะซับซ้อนมากเกินไป โดยจับสัญญาณรบกวนมากกว่ารูปแบบที่ซ่อนอยู่
-
การแสดงภาพ: โครงเรื่อง เช่น กราฟการเรียนรู้ที่แสดงประสิทธิภาพของชุดการฝึกและการตรวจสอบความถูกต้องสามารถเผยให้เห็นถึงความเหมาะสมมากเกินไป หากประสิทธิภาพการฝึกยังคงปรับปรุงต่อไป ในขณะที่ประสิทธิภาพการตรวจสอบความถูกต้องลดลงหรือลดลง
การป้องกันและเทคนิคการลดปัญหาการสวมอุปกรณ์มากเกินไป
-
การตรวจสอบความถูกต้องข้ามสาย: เทคนิคเช่น การตรวจสอบความถูกต้องข้ามสาย k-fold สามารถช่วยประเมินประสิทธิภาพของแบบจำลองในชุดย่อยต่างๆ ของข้อมูล เพื่อให้มั่นใจว่าข้อมูลจะมีลักษณะทั่วไปได้ดี
-
Train-Validation-Test Split: การแบ่งข้อมูลออกเป็นชุดต่างๆ สำหรับการฝึก การตรวจสอบ และการทดสอบ ช่วยให้มั่นใจว่าแบบจำลองได้รับการประเมินจากข้อมูลที่มองไม่เห็น
-
การเลือกคุณสมบัติ: ใช้เฉพาะคุณสมบัติที่เกี่ยวข้องมากที่สุดในการฝึกโมเดล หลีกเลี่ยงสัญญาณรบกวนจากคุณลักษณะที่ให้ข้อมูลน้อย
-
การทำให้เป็นมาตรฐาน: เทคนิค เช่น การทำให้เป็นมาตรฐาน L1 หรือ L2 จะเพิ่มบทลงโทษให้กับฟังก์ชันการสูญเสียของโมเดล ซึ่งทำให้โมเดลที่ซับซ้อนมากเกินไปไม่สนับสนุน
-
การหยุดก่อนกำหนด: ตรวจสอบประสิทธิภาพของโมเดลในชุดการตรวจสอบความถูกต้อง และหยุดการฝึกเมื่อประสิทธิภาพเริ่มลดลง เพื่อป้องกันไม่ให้เพิ่มประสิทธิภาพข้อมูลการฝึกมากเกินไป
-
วิธีการทั้งมวล: การใช้เทคนิค เช่น การบรรจุถุง การเสริมกำลัง หรือการซ้อนสามารถช่วยลดการติดตั้งมากเกินไปโดยการรวมการคาดการณ์ของแบบจำลองต่างๆ เข้าด้วยกัน
-
การเพิ่มข้อมูล: สำหรับโมเดลบางประเภท การสร้างข้อมูลการฝึกเพิ่มเติมโดยการใช้การแปลงหรือการก่อกวนกับข้อมูลที่มีอยู่สามารถช่วยป้องกันการโอเวอร์ฟิตได้
การปรับสมดุลความซับซ้อนของโมเดล ขนาดชุดข้อมูล และเทคนิคการทำให้เป็นมาตรฐานถือเป็นสิ่งสำคัญในการป้องกันไม่ให้มีการติดตั้งมากเกินไป ขณะเดียวกันก็ทำให้มั่นใจได้ว่าโมเดลจะสรุปข้อมูลทั่วไปที่มองไม่เห็นได้ดี