T1- en T2-regularisering in masjienleer

Opgedateer op August 30, 2024 2 minute lees

Regulariseringstegnieke soos L1 en L2 word gebruik om oorpassing in masjienleermodelle te voorkom deur groot koëffisiënte te penaliseer.

L1-regularisering, ook bekend as Lasso-regularisering, voeg ‘n strafterm by wat eweredig is aan die absolute waarde van die koëffisiënte van die kenmerke. Dit moedig spaarsaamheid aan deur sommige koëffisiënte tot presies nul te dryf, wat kenmerkseleksie effektief uitvoer deur minder belangrike kenmerke uit te skakel. Hierdie kenmerkseleksie-vermoë maak L1-regularisering veral nuttig wanneer daar met datastelle met ‘n groot aantal kenmerke gewerk word, aangesien dit help om modelle te vereenvoudig deur op die mees relevante kenmerke te fokus. Die gevolglike modelvereenvoudiging verminder oorpas.

Aan die ander kant voeg L2-regularisering, ook bekend as Ridge-regularisering, ‘n strafterm by wat eweredig is aan die kwadraat van die koëffisiënte van die kenmerke. Dit dwing nie koëffisiënte om presies nul te word nie, maar krimp hulle eerder na nul, wat maak dat alle kenmerke tot ‘n mate bydra tot die model. L2-regularisering is effektief in die hantering van multikollineariteit en lei oor die algemeen tot meer stabiele maar minder yl modelle in vergelyking met L1-regulasie.

Scenario’s waar L1-regularisering meer voordelig kan wees, sluit in:

Hoë-dimensionele datastelle met baie kenmerke: Wanneer te doen het met datastelle waar kenmerkspasie groot is, help L1-regulasie met outomatiese kenmerkkeuse, wat modelinterpreteerbaarheid en werkverrigting verbeter.
Wanneer ylheid van kenmerke verwag word: In domeine waar daar verwag word dat slegs ‘n paar kenmerke werklik invloedryk is, kan L1-regularisering daardie kenmerke doeltreffend identifiseer en daarop fokus.

L1-regulasie kan egter minder effektief wees in scenario’s waar:

Alle kenmerke word as belangrik aanvaar: As daar ‘n oortuiging is dat die meeste kenmerke relevant is en uitsluiting van enige moontlike verlies aan inligting kan veroorsaak, is L1 dalk nie die beste keuse nie, aangesien dit geneig is om koëffisiënte op nul te stel.
Die datastel het multikollineariteitskwessies: L2-regulasie is beter geskik vir die hantering van multikollineariteitsprobleme in vergelyking met L1-regulasie.

In die praktyk kan ‘n kombinasie van L1- en L2-regularisering, bekend as Elastic Net-regularisering, gebruik word om voordeel te trek uit beide tegnieke, deur die yl van L1 en die stabiliteit van L2 te benut.