Az L1 és L2 rendszeresítés szerepe a túlillesztés megelőzésében és a modelláltalánosítás fokozásában

Frissítve a July 03, 2024 -en 2 percek olvasása

A Regularizálás a modellek túlillesztésének megakadályozására és általánosításának javítására használt technikák összességére utal. A túlillesztésről akkor beszélünk, ha a modell túl jól megtanulja a betanítási adatokat, így rögzíti a zajt és a konkrét részleteket, amelyek nem vonatkoznak az új, nem látott adatokra. A rendszeresítés segít ennek ellenőrzésében, ha a modell célfüggvényéhez hozzáad egy büntető kifejezést, ami elriasztja a túl bonyolult modelleket.

A legalizálás két gyakori típusa az L1 és L2 regularizáció:

L1 Regularizálás (Lasso regresszió):

Az L1 rendszerezés egy büntetőtagot ad a költségfüggvényhez, amely megegyezik a modell együtthatóinak abszolút értékeivel.
Ez a ritkaságra ösztönzi a modellt azáltal, hogy egyes együtthatókat pontosan nullára zsugorít, hatékonyan végrehajtva a funkció kiválasztását.
Az így kapott modell egyszerűbb és könnyebben értelmezhető, mivel csak a legfontosabb jellemzőket választja ki, míg a kevésbé relevánsakat elveti.

L2 Regularizálás (Ridge Regression):

Az L2 regularizáció egy büntetőtagot ad a költségfüggvényhez, amely megegyezik a modell együtthatóinak négyzetes nagyságával.
Hajlamos a kevésbé fontos jellemzők együtthatóit nullára csökkenteni, de ritkán állítja pontosan nullára.
Az L2 rendszerezés hatékonyan megakadályozza a túlillesztést a nagy súlyok büntetésével, és ezáltal csökkenti a modell összetettségét.

Mind az L1, mind az L2 regularizációs technikák segítenek csökkenteni a túlillesztést, és javítják a modell azon képességét, hogy a nem látható adatokra általánosítson. Az L1 és L2 regularizáció közötti választás gyakran az adott problémától, a jellemzők természetétől és a kívánt eredménytől függ. A Lasso (L1) regularizációt a jellemzőkiválasztási tulajdonságával akkor részesítjük előnyben, ha szükség van a legrelevánsabb jellemzők azonosítására. A gerinc (L2) szabályosítása akkor megfelelő, ha az összes jellemző potenciálisan fontos, és előnyben részesítik azok hatásának csökkentését anélkül, hogy teljesen megszüntetnék. Ezenkívül a két technika kombinációja, az úgynevezett Elastic Net regularization, használható az L1 és L2 regularizáció egyidejű kihasználására.