Bei der Bewertung der Leistung eines Klassifizierungsmodells können mehrere Metriken verwendet werden, wobei die drei gängigsten die Präzision, die Wiedererkennung und der F1-Score sind.
Präzision:
Die Präzision misst die Genauigkeit der positiven Vorhersagen des Modells. Sie wird berechnet als das Verhältnis der richtigen positiven Vorhersagen zur Gesamtzahl der positiven Vorhersagen (wahre positive Vorhersagen falsche positive Vorhersagen). Einfach ausgedrückt, beantwortet die Präzision die Frage: "Von allen Elementen, die das Modell als positiv vorhergesagt hat, wie viele waren tatsächlich positiv? Eine hohe Präzision bedeutet, dass das Modell, wenn es etwas als positiv vorhersagt, in der Regel richtig liegt.
Rückruf:
Recall misst die Fähigkeit des Modells, alle positiven Instanzen korrekt zu identifizieren. Sie wird berechnet als das Verhältnis von wahr-positiven Vorhersagen zur Gesamtzahl der tatsächlich positiven Instanzen (wahr-positive falsch-negative). Im Wesentlichen beantwortet die Rückrufquote die Frage: "Wie viele der tatsächlich positiven Elemente hat das Modell korrekt identifiziert?". Ein hoher Recall zeigt an, dass das Modell die meisten positiven Instanzen identifizieren kann.
F1 Ergebnis:
Der F1-Wert ist das harmonische Mittel aus Präzision und Recall. Er liefert eine einzige Punktzahl, die sowohl Präzision als auch Recall ausgleicht. Dieser Wert ist besonders nützlich, wenn Sie ein Gleichgewicht zwischen Präzision und Recall finden wollen oder wenn die Klassen unausgewogen sind. Der F1-Score reicht von 0 bis 1, wobei ein höherer Wert eine bessere Leistung anzeigt.
Bei der Bewertung eines Klassifizierungsmodells ist es wichtig, diese Metriken zusammen zu betrachten. Ein Modell mit hoher Präzision, aber niedriger Rückrufquote könnte beispielsweise bei positiven Vorhersagen zu vorsichtig sein, während ein Modell mit hoher Rückrufquote, aber niedriger Präzision bei positiven Vorhersagen zu großzügig sein könnte. Der F1-Score hilft dabei, ein Gleichgewicht zwischen diesen beiden Metriken herzustellen.
Darüber hinaus können je nach Problemstellung und Anforderungen auch andere Metriken wie Genauigkeit, Spezifität, ROC-Kurve (Empfangskennlinie) und AUC (Fläche unter der ROC-Kurve) für die Bewertung der Leistung des Modells nützlich sein.