Các kỹ thuật chính quy hóa như L1 và L2 được sử dụng để ngăn chặn việc trang bị quá mức trong các mô hình học máy bằng cách xử phạt các hệ số lớn.
Chính quy hóa L1, còn được gọi là chính quy hóa Lasso, thêm một số hạng phạt tỷ lệ với giá trị tuyệt đối của các hệ số của các đặc trưng. Nó khuyến khích sự thưa thớt bằng cách đưa một số hệ số về chính xác bằng 0, thực hiện hiệu quả việc lựa chọn tính năng bằng cách loại bỏ các tính năng ít quan trọng hơn. Khả năng lựa chọn tính năng này làm cho việc chuẩn hóa L1 đặc biệt hữu ích khi xử lý các tập dữ liệu có số lượng lớn tính năng, vì nó giúp đơn giản hóa các mô hình bằng cách tập trung vào các tính năng phù hợp nhất. Việc đơn giản hóa mô hình kết quả làm giảm việc trang bị quá mức.
Mặt khác, chính quy hóa L2, còn được gọi là chính quy hóa Ridge, thêm một số hạng phạt tỷ lệ với bình phương các hệ số của đặc trưng. Nó không buộc các hệ số trở thành chính xác bằng 0 mà thay vào đó thu nhỏ chúng về 0, khiến tất cả các tính năng đều đóng góp cho mô hình ở một mức độ nào đó. Chính quy hóa L2 có hiệu quả trong việc xử lý đa cộng tuyến và nhìn chung dẫn đến các mô hình ổn định hơn nhưng ít thưa thớt hơn so với chính quy hóa L1.
Các tình huống trong đó việc chính quy hóa L1 có thể có lợi hơn bao gồm:
-
Bộ dữ liệu chiều cao với nhiều tính năng: Khi xử lý các tập dữ liệu có không gian đặc điểm lớn, chính quy L1 giúp lựa chọn tính năng tự động, cải thiện khả năng diễn giải và hiệu suất của mô hình.
-
Khi dự kiến có sự thưa thớt về tính năng: Trong các miền được dự đoán rằng chỉ có một số tính năng thực sự có ảnh hưởng, chính quy L1 có thể xác định và tập trung vào các tính năng đó một cách hiệu quả.
Tuy nhiên, việc chính quy hóa L1 có thể kém hiệu quả hơn trong các trường hợp:
-
Tất cả các tính năng được coi là quan trọng: Nếu có niềm tin rằng hầu hết các tính năng đều có liên quan và việc loại trừ bất kỳ tính năng nào có thể gây mất thông tin thì L1 có thể không phải là lựa chọn tốt nhất vì nó có xu hướng đặt hệ số về 0.
-
Tập dữ liệu có vấn đề về đa cộng tuyến: Chính quy hóa L2 phù hợp hơn để xử lý các vấn đề đa cộng tuyến so với chính quy hóa L1.
Trong thực tế, sự kết hợp giữa chính quy hóa L1 và L2, được gọi là chính quy hóa Net đàn hồi, có thể được sử dụng để hưởng lợi từ cả hai kỹ thuật, tận dụng tính thưa thớt của L1 và tính ổn định của L2.