การติดตั้งมากเกินไปและการติดตั้งด้านล่างเป็นปัญหาทั่วไปในโมเดลการเรียนรู้ของเครื่องที่ส่งผลต่อความสามารถในการสรุปข้อมูลใหม่ที่มองไม่เห็นได้ดี
การโอเวอร์ฟิต เกิดขึ้นเมื่อโมเดลเรียนรู้ไม่เพียงแต่รูปแบบที่ซ่อนอยู่ในข้อมูลการฝึกเท่านั้น แต่ยัง เรียนรู้สิ่งรบกวน และความผันผวนแบบสุ่มที่มีอยู่ในข้อมูลนั้นด้วย ด้วยเหตุนี้ โมเดลจึงทำงานได้ดีเป็นพิเศษกับข้อมูลการฝึก แต่ ล้มเหลวในการสรุป กับข้อมูลที่มองไม่เห็นใหม่ๆ เนื่องจากได้ จดจำชุดการฝึก เป็นหลัก
ในทางกลับกัน การปรับให้พอดี เกิดขึ้นเมื่อแบบจำลอง ง่ายเกินกว่าที่จะบันทึกรูปแบบพื้นฐาน ในข้อมูลการฝึก มันทำงานได้ไม่ดีไม่เพียงแต่กับข้อมูลการฝึกอบรมเท่านั้น แต่ยังรวมถึงข้อมูลใหม่ด้วย เนื่องจากไม่สามารถเรียนรู้ความสัมพันธ์และความซับซ้อนที่มีอยู่ในข้อมูลได้
วิธีป้องกันการใส่อุปกรณ์มากเกินไปและใส่อุปกรณ์น้อยเกินไป
-
การตรวจสอบข้าม: ใช้เทคนิค เช่น การตรวจสอบความถูกต้องข้าม k-fold เพื่อประเมินประสิทธิภาพของแบบจำลองในชุดย่อยต่างๆ ของข้อมูล ช่วยในการประมาณว่าโมเดลจะสรุปข้อมูลทั่วไปได้ดีเพียงใด
-
แยกการทดสอบรถไฟ: แบ่งข้อมูลของคุณออกเป็นชุดการฝึกอบรมและการทดสอบแยกกัน ฝึกโมเดลในชุดการฝึกและประเมินประสิทธิภาพบนชุดทดสอบ ซึ่งจะช่วยประเมินว่าโมเดลสามารถสรุปข้อมูลทั่วไปที่มองไม่เห็นได้ดีเพียงใด
-
การเลือก/การลดคุณลักษณะ: ลดความซับซ้อนของแบบจำลองโดยการเลือกเฉพาะคุณลักษณะที่เกี่ยวข้องมากที่สุด หรือใช้เทคนิค เช่น การวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อลดขนาดของข้อมูล
-
การทำให้เป็นมาตรฐาน: เทคนิค เช่น การทำให้เป็นมาตรฐาน L1 หรือ L2 จะเพิ่มบทลงโทษสำหรับความซับซ้อนให้กับฟังก์ชันวัตถุประสงค์ของโมเดล เพื่อป้องกันไม่ให้ปรับสัญญาณรบกวนในข้อมูลให้ชิดเกินไป
-
วิธีการทั้งมวล: รวมหลายรุ่นเข้าด้วยกันเพื่อลดการใส่อุปกรณ์มากเกินไปและอุปกรณ์ที่ต่ำกว่า เทคนิคต่างๆ เช่น การบรรจุถุง การเพิ่มประสิทธิภาพ หรือการซ้อนจะใช้แบบจำลองหลายแบบเพื่อปรับปรุงประสิทธิภาพโดยรวมและลักษณะทั่วไป
-
การปรับแต่งไฮเปอร์พารามิเตอร์: ปรับไฮเปอร์พารามิเตอร์ของโมเดล (เช่น อัตราการเรียนรู้ ความลึกของแผนผังในแผนผังการตัดสินใจ ฯลฯ) โดยใช้เทคนิค เช่น การค้นหาตาราง หรือ การค้นหาแบบสุ่ม เพื่อค้นหาการกำหนดค่าที่เหมาะสมที่สุดที่สมดุลกับอคติ และความแปรปรวน
-
การหยุดตั้งแต่เนิ่นๆ: ตรวจสอบประสิทธิภาพของโมเดลบนชุดการตรวจสอบระหว่างการฝึก และหยุดกระบวนการฝึกเมื่อประสิทธิภาพเริ่มลดลง เพื่อป้องกันไม่ให้มีการติดตั้งมากเกินไป
-
ข้อมูลเพิ่มเติม: การเพิ่มจำนวนข้อมูลสามารถช่วยให้แบบจำลองสามารถสรุปได้ดีขึ้นโดยการจัดหาตัวอย่างการแจกแจงพื้นฐานที่หลากหลายและเป็นตัวแทนมากขึ้น
การค้นหาสมดุลที่เหมาะสมระหว่างความซับซ้อนของโมเดลและลักษณะทั่วไปเป็นสิ่งสำคัญในการป้องกันการติดตั้งมากเกินไปและการปรับไม่เพียงพอ และเทคนิคเหล่านี้ช่วยในการบรรลุความสมดุลดังกล่าว