Regularisierung bezieht sich auf eine Reihe von Techniken, die zur Vermeidung von Overfitting und zur Verbesserung der Generalisierung eines Modells eingesetzt werden. Eine Überanpassung tritt auf, wenn ein Modell die Trainingsdaten zu gut lernt und Rauschen und spezifische Details erfasst, die auf neue, ungesehene Daten nicht zutreffen. Die Regularisierung trägt dazu bei, dies zu kontrollieren, indem sie der Zielfunktion des Modells einen Strafausdruck hinzufügt, der übermäßig komplexe Modelle verhindert.
Zwei gängige Arten der Regularisierung sind die L1- und L2-Regularisierung:
L1 Regularisierung (Lasso Regression):
-
Die L1-Regularisierung fügt der Kostenfunktion einen Strafterm hinzu, der den absoluten Werten der Koeffizienten des Modells entspricht.
-
Sie fördert die Sparsamkeit des Modells, indem sie einige Koeffizienten auf genau Null schrumpfen lässt und so eine effektive Merkmalsauswahl vornimmt.
-
Das sich daraus ergebende Modell ist einfacher und leichter zu interpretieren, da es nur die wichtigsten Merkmale auswählt und weniger relevante Merkmale ausschließt.
L2 Regularisierung (Ridge Regression):
-
Die L2-Regularisierung fügt der Kostenfunktion einen Strafterm hinzu, der den quadrierten Größen der Koeffizienten des Modells entspricht.
-
Sie neigt dazu, die Koeffizienten der weniger wichtigen Merkmale gegen Null zu schrumpfen, setzt sie aber nur selten exakt auf Null.
-
Die L2-Regularisierung verhindert eine Überanpassung, indem sie große Gewichte bestraft und somit die Komplexität des Modells reduziert.
Sowohl L1- als auch L2-Regularisierungstechniken helfen dabei, die Überanpassung zu reduzieren und die Fähigkeit des Modells zur Generalisierung auf ungesehene Daten zu verbessern. Die Wahl zwischen L1- und L2-Regularisierung hängt oft von dem spezifischen Problem, der Art der Merkmale und dem gewünschten Ergebnis ab. Die Lasso (L1)-Regularisierung mit ihrer Eigenschaft der Merkmalsauswahl wird bevorzugt, wenn es darum geht, die relevantesten Merkmale zu identifizieren. Die Ridge (L2)-Regularisierung ist geeignet, wenn alle Merkmale potenziell wichtig sind und ihre Auswirkungen reduziert werden sollen, ohne sie vollständig zu eliminieren. Darüber hinaus kann eine Kombination beider Techniken, die so genannte Elastic Net Regularization, verwendet werden, um die Vorteile der L1- und L2-Regularisierung gleichzeitig zu nutzen.