Schlüsselmetriken für Klassifizierungsmodelle

Aktualisiert am September 02, 2024 Lesedauer: 2 Minuten

Bei der Bewertung der Leistung eines Klassifizierungsmodells können mehrere Metriken verwendet werden, aber drei der gebräuchlichsten sind Präzision, Rückruf und der F1-Score.

Präzision:

Präzision misst die Genauigkeit der vom Modell gemachten positiven Vorhersagen. Er wird als Verhältnis der wahrhaft positiven Vorhersagen zur Gesamtzahl der positiven Vorhersagen (wahr positiv + falsch positiv) berechnet. Vereinfacht ausgedrückt beantwortet Präzision die Frage: „Wie viele von allen Elementen, die das Modell als positiv vorhergesagt hat, waren tatsächlich positiv?“ Hohe Präzision bedeutet, dass das Modell, wenn es etwas Positives vorhersagt, normalerweise richtig ist.

Abrufen:

Der Rückruf misst die Fähigkeit des Modells, alle positiven Instanzen korrekt zu identifizieren. Er wird als Verhältnis der wahrhaft positiven Vorhersagen zur Gesamtzahl der tatsächlich positiven Fälle (wahr positiv + falsch negativ) berechnet. Im Wesentlichen beantwortet Recall die Frage: „Wie viele von allen tatsächlich positiven Elementen hat das Modell korrekt identifiziert?“ Eine hohe Erinnerung zeigt an, dass das Modell die meisten positiven Instanzen identifizieren kann.

F1-Ergebnis:

Der F1-Score ist das harmonische Mittel aus Präzision und Erinnerung. Es bietet eine einzige Punktzahl, die Präzision und Erinnerung in Einklang bringt. Dieser Wert ist besonders nützlich, wenn Sie ein Gleichgewicht zwischen Präzision und Erinnerung finden möchten oder wenn die Klassen unausgewogen sind. Der F1-Score reicht von 0 bis 1, wobei ein höherer Wert eine bessere Leistung anzeigt.

Bei der Bewertung eines Klassifizierungsmodells ist es wichtig, diese Metriken zusammen zu berücksichtigen. Beispielsweise könnte ein Modell mit hoher Präzision, aber geringer Trefferquote zu vorsichtig sein, wenn es darum geht, positive Vorhersagen zu treffen, während ein Modell mit hoher Trefferquote, aber geringer Präzision möglicherweise zu liberal bei der Vorhersage positiver Ergebnisse ist. Der F1-Score hilft dabei, ein Gleichgewicht zwischen diesen beiden Kennzahlen zu finden.

Darüber hinaus können je nach spezifischem Problem und Anforderungen auch andere Metriken wie Genauigkeit, Spezifität, ROC-Kurve (Receiver Operating Characteristic Curve) und AUC (Fläche unter der ROC-Kurve) für die Beurteilung der Modellleistung hilfreich sein.