L1- und L2-Regularisierung im maschinellen Lernen

Aktualisiert am September 02, 2024 Lesedauer: 2 Minuten

Regularisierungstechniken wie L1 und L2 werden verwendet, um eine Überanpassung in Modellen für maschinelles Lernen zu verhindern, indem große Koeffizienten bestraft werden.

Die L1-Regularisierung, auch Lasso-Regularisierung genannt, fügt einen Strafterm hinzu, der proportional zum Absolutwert der Koeffizienten der Merkmale ist. Es fördert die Sparsität, indem es einige Koeffizienten auf genau Null setzt und so eine effektive Merkmalsauswahl durch Eliminieren weniger wichtiger Merkmale durchführt. Diese Funktion zur Merkmalsauswahl macht die L1-Regularisierung besonders nützlich, wenn es um Datensätze mit einer großen Anzahl von Merkmalen geht, da sie dabei hilft, Modelle zu vereinfachen, indem sie sich auf die relevantesten Merkmale konzentriert. Die daraus resultierende Modellvereinfachung reduziert die Überanpassung.

Andererseits fügt die L2-Regularisierung, auch Ridge-Regularisierung genannt, einen Strafterm hinzu, der proportional zum Quadrat der Koeffizienten der Merkmale ist. Es erzwingt nicht, dass die Koeffizienten genau Null werden, sondern schrumpft sie stattdessen in Richtung Null, sodass alle Features bis zu einem gewissen Grad zum Modell beitragen. Die L2-Regularisierung ist effektiv bei der Handhabung von Multikollinearität und führt im Allgemeinen zu stabileren, aber weniger spärlichen Modellen im Vergleich zur L1-Regularisierung.

Zu den Szenarien, in denen eine L1-Regularisierung vorteilhafter sein könnte, gehören:

Hochdimensionale Datensätze mit vielen Features: Bei Datensätzen mit großem Feature-Bereich hilft die L1-Regularisierung bei der automatischen Feature-Auswahl und verbessert die Interpretierbarkeit und Leistung des Modells.
Wenn Feature-Spärlichkeit erwartet wird: In Domänen, in denen erwartet wird, dass nur wenige Features wirklich einflussreich sind, kann die L1-Regularisierung diese Features effizient identifizieren und sich auf sie konzentrieren.

Allerdings ist die L1-Regularisierung möglicherweise in folgenden Szenarien weniger effektiv:

Es wird davon ausgegangen, dass alle Merkmale wichtig sind: Wenn man davon ausgeht, dass die meisten Merkmale relevant sind und der Ausschluss einiger Merkmale zu Informationsverlusten führen könnte, ist L1 möglicherweise nicht die beste Wahl, da die Koeffizienten tendenziell auf Null gesetzt werden.
Der Datensatz weist Multikollinearitätsprobleme auf: Die L2-Regularisierung ist im Vergleich zur L1-Regularisierung besser für die Behandlung von Multikollinearitätsproblemen geeignet.

In der Praxis kann eine Kombination aus L1- und L2-Regularisierung, bekannt als Elastic Net-Regularisierung, verwendet werden, um von beiden Techniken zu profitieren und dabei die Sparsität von L1 und die Stabilität von L2 zu nutzen.