การทำให้เป็นมาตรฐานเป็นกลุ่ม เป็นเทคนิคที่ใช้ในโครงข่ายประสาทเทียมระดับลึกเพื่อปรับปรุง ความเร็วการฝึก ความเสถียร และ การลู่เข้า วัตถุประสงค์หลักคือเพื่อแก้ไขปัญหา การเปลี่ยนแปลงโควาเรียตภายใน ซึ่งหมายถึง การเปลี่ยนแปลงในการกระจายอินพุตของแต่ละเลเยอร์ระหว่างการฝึกเนื่องจากการเปลี่ยนแปลงในพารามิเตอร์ของเลเยอร์ก่อนหน้า การเปลี่ยนแปลงนี้อาจทำให้กระบวนการฝึกอบรมช้าลง และทำให้การเรียนรู้อย่างมีประสิทธิภาพแต่ละชั้นมีความท้าทายมากขึ้น
วิธีการทำงานของ Batch Normalization
-
การทำให้เป็นมาตรฐานภายในมินิแบทช์: ในระหว่างการฝึก การทำให้เป็นมาตรฐานแบบแบทช์จะทำให้อินพุตของแต่ละเลเยอร์เป็นมาตรฐานโดย ลบค่าเฉลี่ยของมินิแบทช์ และ หารด้วยค่าเบี่ยงเบนมาตรฐานของมินิแบทช์ ซึ่งจะช่วยลดการเปลี่ยนแปลงโควาเรียตภายใน ทำให้เครือข่ายมีเสถียรภาพมากขึ้นและช่วยให้การฝึกอบรมเร็วขึ้น
-
พารามิเตอร์ที่เรียนรู้ได้: การทำให้เป็นมาตรฐานเป็นกลุ่มแนะนำ พารามิเตอร์ที่เรียนรู้ได้สองตัวต่อการเปิดใช้งาน โดยทั่วไปจะเรียกว่าพารามิเตอร์ สเกล และ กะ พารามิเตอร์เหล่านี้ช่วยให้โมเดลสามารถปรับและ เรียนรู้ขนาดที่เหมาะสมที่สุดและการเปลี่ยนแปลงสำหรับอินพุตของแต่ละเลเยอร์
-
การทำให้เป็นมาตรฐานข้ามคุณสมบัติต่างๆ: นอกเหนือจากการทำให้เป็นมาตรฐานทั่วทั้งมิติมินิแบทช์แล้ว การทำให้เป็นมาตรฐานแบบแบทช์ยัง ทำให้คุณสมบัติทั้งหมดเป็นมาตรฐานสำหรับแต่ละตัวอย่างภายในแบทช์ การทำให้เป็นมาตรฐานนี้ดำเนินการอย่างแยกจากกันสำหรับแต่ละมิติคุณลักษณะ
ผลกระทบต่อการฝึกอบรม
-
การบรรจบกันที่เร็วขึ้น: การทำให้แบทช์เป็นมาตรฐานมักจะนำไปสู่การบรรจบกันที่เร็วขึ้นระหว่างการฝึกอบรมโดย อนุญาตให้ใช้อัตราการเรียนรู้ที่สูงขึ้นโดยไม่มีความเสี่ยงของความแตกต่าง
-
การลด Overfitting: ทำหน้าที่เป็น รูปแบบของการทำให้เป็นมาตรฐาน ซึ่งลดการพึ่งพา dropout หรือเทคนิคการทำให้เป็นมาตรฐานอื่นๆ ซึ่งจะช่วยป้องกันไม่ให้มีการติดตั้งมากเกินไปในระดับหนึ่ง
-
ความเสถียรและโฟลว์การไล่ระดับ: ทำให้กระบวนการฝึกมีความเสถียรโดย ลดโอกาสที่การไล่ระดับสีจะหายไปหรือระเบิด ช่วยให้การไล่ระดับสีผ่านเครือข่ายแข็งแกร่งยิ่งขึ้น
ข้อเสียและข้อจำกัด
-
การพึ่งพาขนาดแบทช์: ประสิทธิภาพของการทำให้แบทช์เป็นมาตรฐานอาจได้รับอิทธิพลจากขนาดแบทช์ที่ใช้ระหว่างการฝึก ขนาดแบตช์ที่เล็กมากอาจทำให้การประมาณค่าสถิติมินิแบตช์ไม่ถูกต้อง ซึ่งส่งผลต่อประสิทธิภาพการทำงาน
-
ความยากในการปรับใช้กับสถาปัตยกรรมบางอย่าง: การทำให้เป็นมาตรฐานแบบแบตช์อาจไม่ทำงานอย่างเหมาะสมกับโครงข่ายประสาทเทียม (RNN) เนื่องจากลักษณะการคำนวณตามลำดับ
-
ผลกระทบต่อการอนุมาน: ในระหว่างการอนุมาน ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานที่ใช้สำหรับการทำให้เป็นมาตรฐานจะต้องประมาณจากชุดข้อมูลการฝึกอบรมทั้งหมดหรือจากสถิติที่กำลังดำเนินการอยู่ ซึ่งอาจทำให้เกิดความคลาดเคลื่อนบางประการ โดยเฉพาะอย่างยิ่งในกรณีที่การกระจายข้อมูลอนุมานแตกต่างอย่างมีนัยสำคัญจาก ข้อมูลการฝึกอบรม
แม้ว่าการทำให้เป็นมาตรฐานแบบแบตช์เป็นเทคนิคที่ทรงพลังและใช้กันทั่วไปในสถาปัตยกรรมการเรียนรู้เชิงลึกจำนวนมาก ประสิทธิภาพอาจแตกต่างกันไปตามสถาปัตยกรรมเครือข่าย การกระจายข้อมูล และกรณีการใช้งานเฉพาะ ในบางสถานการณ์ อาจเลือกใช้ทางเลือกอื่น เช่น การทำให้เลเยอร์เป็นมาตรฐาน หรือ การทำให้เป็นมาตรฐานของอินสแตนซ์