เทคนิคการทำให้เป็นมาตรฐาน เช่น L1 และ L2 ใช้เพื่อป้องกันไม่ให้มีการติดตั้งมากเกินไปในโมเดลแมชชีนเลิร์นนิงโดยการลดค่าสัมประสิทธิ์ที่มีขนาดใหญ่
การทำให้เป็นมาตรฐาน L1 หรือที่เรียกว่าการทำให้เป็นมาตรฐานแบบ Lasso จะเพิ่มเงื่อนไขการลงโทษตามสัดส่วนของค่าสัมประสิทธิ์ของคุณลักษณะ มันส่งเสริมความกระจัดกระจายโดยการผลักดันค่าสัมประสิทธิ์บางอย่างให้เป็นศูนย์ทุกประการ ดำเนินการเลือกคุณสมบัติอย่างมีประสิทธิภาพโดยกำจัดคุณสมบัติที่สำคัญน้อยกว่า ความสามารถในการเลือกคุณสมบัตินี้ทำให้การทำให้เป็นมาตรฐานของ L1 มีประโยชน์อย่างยิ่งเมื่อต้องจัดการกับชุดข้อมูลที่มีคุณสมบัติจำนวนมาก เนื่องจากช่วยลดความซับซ้อนของโมเดลโดยมุ่งเน้นไปที่คุณสมบัติที่เกี่ยวข้องมากที่สุด การลดความซับซ้อนของโมเดลที่เกิดขึ้นจะช่วยลดการติดตั้งมากเกินไป
ในทางกลับกัน การทำให้เป็นมาตรฐาน L2 หรือที่เรียกว่าการทำให้เป็นมาตรฐานของ Ridge จะเพิ่มระยะการลงโทษตามสัดส่วนของกำลังสองของสัมประสิทธิ์ของคุณลักษณะ มันไม่ได้บังคับให้ค่าสัมประสิทธิ์กลายเป็นศูนย์ทุกประการ แต่จะย่อให้เหลือศูนย์แทน ทำให้ฟีเจอร์ทั้งหมดมีส่วนช่วยในโมเดลได้บ้าง การทำให้เป็นมาตรฐานของ L2 มีประสิทธิภาพในการจัดการ multicollinearity และโดยทั่วไปจะนำไปสู่โมเดลที่มีเสถียรภาพมากขึ้นแต่กระจัดกระจายน้อยกว่าเมื่อเปรียบเทียบกับการทำให้เป็นมาตรฐานของ L1
สถานการณ์สมมติที่การปรับ L1 ให้เป็นมาตรฐานอาจเป็นประโยชน์มากกว่า ได้แก่:
-
ชุดข้อมูลมิติสูงที่มีคุณสมบัติมากมาย: เมื่อต้องจัดการกับชุดข้อมูลที่มีพื้นที่คุณลักษณะมีขนาดใหญ่ การทำให้เป็นมาตรฐาน L1 จะช่วยในการเลือกคุณสมบัติอัตโนมัติ ปรับปรุงความสามารถในการตีความและประสิทธิภาพของโมเดล
-
เมื่อคาดว่าจะมีคุณลักษณะกระจัดกระจาย: ในโดเมนที่คาดว่าจะมีคุณลักษณะเพียงไม่กี่อย่างเท่านั้นที่มีอิทธิพลอย่างแท้จริง การปรับมาตรฐาน L1 จะสามารถระบุและมุ่งเน้นไปที่คุณลักษณะเหล่านั้นได้อย่างมีประสิทธิภาพ
อย่างไรก็ตาม การทำให้เป็นมาตรฐาน L1 อาจมีประสิทธิภาพน้อยลงในสถานการณ์ที่:
-
ถือว่าคุณลักษณะทั้งหมดมีความสำคัญ: หากมีความเชื่อว่าคุณลักษณะส่วนใหญ่มีความเกี่ยวข้องและการยกเว้นคุณลักษณะใด ๆ อาจทำให้ข้อมูลสูญหาย L1 อาจไม่ใช่ตัวเลือกที่ดีที่สุดเนื่องจากมีแนวโน้มที่จะตั้งค่าสัมประสิทธิ์เป็นศูนย์
-
ชุดข้อมูลมีปัญหาหลายคอลลิเนียร์: การทำให้เป็นมาตรฐาน L2 เหมาะสมกว่าสำหรับการจัดการปัญหาหลายคอลลิเนียร์เมื่อเปรียบเทียบกับการทำให้เป็นมาตรฐาน L1
ในทางปฏิบัติ การผสมผสานระหว่างการทำให้เป็นมาตรฐานของ L1 และ L2 หรือที่เรียกว่า การทำให้เป็นมาตรฐานแบบยืดหยุ่น สามารถนำมาใช้เพื่อให้ได้รับประโยชน์จากทั้งสองเทคนิค โดยใช้ประโยชน์จากความกระจัดกระจายของ L1 และความเสถียรของ L2