Regularizační techniky jako L1 a L2 se používají k zabránění nadměrnému přizpůsobení v modelech strojového učení penalizací velkých koeficientů.
Regulace L1, známá také jako regularizace lasa, přidává trest úměrný absolutní hodnotě koeficientů vlastností. Podporuje řídkost tím, že některé koeficienty vytlačí přesně na nulu, čímž účinně provádí výběr prvků eliminací méně důležitých prvků. Díky této možnosti výběru funkcí je regularizace L1 zvláště užitečná při práci s datovými sadami s velkým počtem funkcí, protože pomáhá zjednodušit modely zaměřením na nejdůležitější funkce. Výsledné zjednodušení modelu snižuje nadměrné vybavení.
Na druhou stranu regularizace L2, známá také jako Ridge regularizace, přidává trest úměrný druhé mocnině koeficientů vlastností. Nenutí koeficienty, aby byly přesně nulové, ale místo toho je zmenšují směrem k nule, takže všechny prvky do určité míry přispívají k modelu. Regulace L2 je účinná při řešení multikolinearity a obecně vede ke stabilnějším, ale méně řídkým modelům ve srovnání s regularizací L1.
Scénáře, kde by regularizace L1 mohla být výhodnější, zahrnují:
-
Vysokorozměrné datové sady s mnoha funkcemi: Při práci s datovými sadami, kde je velký prostor funkcí, pomáhá regularizace L1 při automatickém výběru funkcí, zlepšuje interpretovatelnost a výkon modelu.
-
Když se očekává vzácnost funkcí: V doménách, kde se očekává, že jen několik málo funkcí má skutečně vliv, může regularizace L1 tyto funkce efektivně identifikovat a zaměřit se na ně.
Regulace L1 však může být méně účinná ve scénářích, kde:
-
Všechny vlastnosti jsou považovány za důležité: Pokud existuje přesvědčení, že většina vlastností je relevantních a vyloučení jakýchkoli může způsobit ztrátu informací, L1 nemusí být nejlepší volbou, protože má tendenci nastavovat koeficienty na nulu.
-
Sada dat má problémy s multikolinearitou: regularizace L2 je vhodnější pro řešení problémů s multikolinearitou ve srovnání s regularizací L1.
V praxi lze použít kombinaci regularizace L1 a L2, známou jako regulace elastické sítě, aby bylo možné těžit z obou technik a využít tak vzácnosti L1 a stability L2.