Методи регуляризації, такі як L1 і L2, використовуються для запобігання переобладнанню в моделях машинного навчання шляхом штрафування за великі коефіцієнти.
Регулярізація L1, також відома як регулярізація Лассо, додає штрафний термін, пропорційний абсолютному значенню коефіцієнтів ознак. Він заохочує розрідженість, доводячи деякі коефіцієнти до точного нуля, ефективно виконуючи вибір функцій, усуваючи менш важливі функції. Ця можливість вибору функцій робить регулярізацію рівня L1 особливо корисною при роботі з наборами даних із великою кількістю функцій, оскільки вона допомагає спростити моделі, зосереджуючись на найбільш відповідних функціях. Отримане спрощення моделі зменшує переобладнання.
З іншого боку, регулярізація L2, також відома як регулярізація Ріджа, додає штрафний термін, пропорційний квадрату коефіцієнтів ознак. Він не змушує коефіцієнти ставати рівними нулю, а натомість зменшує їх до нуля, завдяки чому всі функції певною мірою сприяють моделі. Регулярізація L2 є ефективною для обробки мультиколінеарності та, як правило, призводить до більш стабільних, але менш розріджених моделей порівняно з регуляризацією L1.
Сценарії, коли регулярізація L1 може бути більш вигідною, включають:
-
Набори даних великого розміру з багатьма функціями: коли ви маєте справу з наборами даних, де простір ознак великий, регулярізація L1 допомагає в автоматичному виборі функцій, покращуючи інтерпретацію моделі та продуктивність.
-
Якщо очікується розрідженість функцій: у доменах, де очікується, що лише кілька функцій справді впливають, регулярізація L1 може ефективно ідентифікувати ці функції та зосереджуватися на них.
Однак регулярізація L1 може бути менш ефективною в сценаріях, де:
-
Вважається, що всі функції є важливими: якщо існує переконання, що більшість функцій є релевантними та виключають будь-які, які можуть спричинити втрату інформації, L1 може бути не найкращим вибором, оскільки він має тенденцію встановлювати коефіцієнти до нуля.
-
Набір даних має проблеми мультиколінеарності: регулярізація L2 краще підходить для вирішення проблем мультиколінеарності порівняно з регуляризацією L1.
На практиці комбінація регуляризації L1 і L2, відома як регулярізація Elastic Net, може бути використана, щоб отримати переваги від обох методів, використовуючи розрідженість L1 і стабільність L2.