Regularisierungstechniken wie L1 und L2 werden verwendet, um eine Überanpassung von Modellen des maschinellen Lernens zu verhindern, indem große Koeffizienten bestraft werden.
Die L1-Regularisierung, die auch als Lasso-Regularisierung bekannt ist, fügt einen Strafterm hinzu, der proportional zum Absolutwert der Koeffizienten der Merkmale ist. Sie fördert die Sparsamkeit, indem sie einige Koeffizienten auf genau Null setzt und so eine effektive Merkmalsauswahl durch Eliminierung weniger wichtiger Merkmale vornimmt. Diese Fähigkeit zur Merkmalsselektion macht die L1-Regularisierung besonders nützlich, wenn es um Datensätze mit einer großen Anzahl von Merkmalen geht, da sie dazu beiträgt, Modelle zu vereinfachen, indem sie sich auf die relevantesten Merkmale konzentriert. Die daraus resultierende Modellvereinfachung verringert die Überanpassung.
Die L2-Regularisierung, auch als Ridge-Regularisierung bekannt, fügt dagegen einen Strafterm hinzu, der proportional zum Quadrat der Koeffizienten der Merkmale ist. Sie zwingt die Koeffizienten nicht dazu, genau Null zu werden, sondern schrumpft sie gegen Null, so dass alle Merkmale in gewissem Maße zum Modell beitragen. Die L2-Regularisierung ist wirksam im Umgang mit Multikollinearität und führt im Allgemeinen zu stabileren, aber weniger spärlichen Modellen als die L1-Regularisierung.
Zu den Szenarien, in denen die L1-Regularisierung vorteilhafter sein könnte, gehören:
-
Hochdimensionale Datensätze mit vielen Merkmalen: Bei der Bearbeitung von Datensätzen mit einem großen Merkmalsraum hilft die L1-Regularisierung bei der automatischen Merkmalsauswahl und verbessert die Interpretierbarkeit und Leistung des Modells.
-
Wenn eine geringe Anzahl von Merkmalen zu erwarten ist: In Bereichen, in denen zu erwarten ist, dass nur einige wenige Merkmale wirklich einflussreich sind, kann die L1-Regularisierung diese Merkmale effizient identifizieren und sich auf sie konzentrieren.
In Szenarien, in denen die L1-Regularisierung weniger effektiv ist, kann sie jedoch eingesetzt werden:
-
Es wird davon ausgegangen, dass alle Merkmale wichtig sind: Wenn man davon ausgeht, dass die meisten Merkmale relevant sind und der Ausschluss eines Merkmals zu einem Informationsverlust führen könnte, ist L1 möglicherweise nicht die beste Wahl, da es dazu neigt, die Koeffizienten auf Null zu setzen.
-
Der Datensatz weist Probleme mit Multikollinearität auf: Die L2-Regularisierung ist im Vergleich zur L1-Regularisierung besser für die Behandlung von Multikollinearitätsproblemen geeignet.
In der Praxis kann eine Kombination aus L1- und L2-Regularisierung, bekannt als Elastic Net Regularization, verwendet werden, um von beiden Techniken zu profitieren, indem die Sparsamkeit von L1 und die Stabilität von L2 genutzt wird.