Bewerben Sie sich für unsere neuen Teilzeit-Kohorten Data Science & AI und Cybersecurity

Die Macht der Kreuzvalidierungstechniken

Kreuzvalidierungstechniken
Modellbewertungsmethoden
Strategien zur Vermeidung von Überanpassung
Die Macht der Kreuzvalidierungstechniken cover image

Die Kreuzvalidierung ist eine wichtige Technik, um zu bewerten, wie gut ein Modell auf neuen Daten funktioniert. Das Hauptziel besteht darin, die Leistung eines Modells so zu bewerten, dass Probleme wie Überanpassung (, bei der das Modell zu viel aus den Trainingsdaten lernt und bei ungesehenen Daten schlecht abschneidet) und Unteranpassung (, bei der das Modell zu einfach ist, um die Muster in den Daten zu erfassen), minimiert werden.

Das Konzept beinhaltet die Aufteilung der verfügbaren Daten in mehrere Teilmengen, in der Regel zwei Hauptteile: die Trainingsmenge und die Validierungsmenge (, die manchmal auch als Testmenge) bezeichnet wird.

Eine gängige Technik ist die k-fache Kreuzvalidierung:

  • Der Datensatz wird in "k" Teilmengen (oder Falten) von ungefähr gleicher Größe unterteilt.

  • Das Modell wird k-mal trainiert, wobei jedes Mal ein anderer Fold als Validierungssatz und die verbleibenden Folds als Trainingssätze verwendet werden.

  • Bei der 5-fachen Kreuzvalidierung zum Beispiel werden die Daten in fünf Teilmengen aufgeteilt. Das Modell wird fünfmal trainiert, wobei jedes Mal eine andere der fünf Teilmengen als Validierungsmenge und die anderen vier als Trainingsmenge verwendet werden.

  • Die Leistungskennzahlen (wie Genauigkeit, Präzision, Wiedererkennung usw.) werden über diese "k" Iterationen gemittelt, um eine endgültige Leistungsschätzung zu erhalten.

Weitere gängige Techniken sind

Leave-One-Out-Kreuzvalidierung (LOOCV)

  • Jeder Datenpunkt dient als Validierungssatz, und das Modell wird anhand der übrigen Daten trainiert.

  • Diese Methode ist bei großen Datensätzen rechenintensiv, kann aber recht genau sein, da sie fast alle Daten zum Training verwendet.

Stratifizierte Kreuzvalidierung

  • Stellt sicher, dass jeder Fold repräsentativ für den gesamten Datensatz ist. Die Klassenverteilung in jedem Fold wird beibehalten, was bei unausgewogenen Datensätzen hilfreich ist.

Die Kreuzvalidierung ist von entscheidender Bedeutung, da sie eine zuverlässigere Schätzung der Leistung eines Modells bei ungesehenen Daten liefert als eine einzelne Trainings-/Testaufteilung. Sie hilft dabei, Probleme wie Überanpassung oder Unteranpassung zu erkennen, indem sie eine robustere Schätzung darüber liefert, wie das Modell auf neue Daten verallgemeinert.

Durch den Einsatz der Kreuzvalidierung können Praktiker des maschinellen Lernens bessere Entscheidungen über die Modellauswahl, die Abstimmung der Hyperparameter und die Bewertung der Generalisierungsleistung eines Modells auf ungesehenen Daten treffen.


Career Services background pattern

Karrieredienste

Contact Section background image

Lass uns in Kontakt bleiben

Code Labs Academy © 2024 Alle Rechte vorbehalten.