Regularizace označuje soubor technik používaných k zabránění nadměrnému vybavení a zlepšení zobecnění modelu. K přefitování dochází, když se model učí trénovací data příliš dobře a zachycuje hluk a specifické detaily, které se nevztahují na nová, neviditelná data. Regularizace to pomáhá kontrolovat přidáním trestního členu k objektivní funkci modelu, což odrazuje od příliš složitých modelů.
Dva běžné typy regularizace jsou L1 a L2 regularizace:
Regularizace L1 (laso regrese):
-
Regulace L1 přidá penalizační člen k nákladové funkci rovný absolutním hodnotám koeficientů modelu.
-
podporuje řídkost v modelu tím, že stáhne některé koeficienty přesně na nulu, čímž efektivně provede výběr funkcí.
-
Výsledný model je jednodušší a snáze interpretovatelný, protože vybírá pouze ty nejdůležitější funkce, zatímco ty méně relevantní zahazuje.
Regularizace L2 (ridge regrese):
-
Regulace L2 přidá penalizační člen k nákladové funkci rovný druhým mocninám koeficientů modelu.
-
Má tendenci zmenšovat koeficienty méně důležitých prvků směrem k nule, ale zřídka je nastaví přesně na nulu.
-
Regulace L2 je účinná při prevenci nadměrného vybavení tím, že penalizuje velké váhy, a tím snižuje složitost modelu.
Jak L1, tak L2 regularizační techniky pomáhají snížit nadměrné přizpůsobení a zlepšit schopnost modelu zobecnit na neviditelná data. Volba mezi regularizací L1 a L2 často závisí na konkrétním problému, povaze rysů a požadovaném výsledku. Regulace lasa (L1) se svou vlastností výběru vlastností je preferována, když je potřeba identifikovat nejrelevantnější vlastnosti. Regulace Ridge (L2) je vhodná, když jsou všechny prvky potenciálně důležité, a preferuje se snížení jejich dopadu bez jejich úplného odstranění. Navíc lze použít kombinaci obou technik, známou jako regulace elastické sítě, a využít tak regulaci L1 i L2 současně.