Egy osztályozási modell teljesítményének értékelésekor többféle mérőszám használható, de a három leggyakoribb a pontosság, visszahívás és az F1 pontszám.
Pontosság:
A pontosság a modell által készített pozitív előrejelzések pontosságát méri. Kiszámítása a valódi pozitív előrejelzések aránya a pozitív előrejelzések teljes számához (igazi pozitív + hamis pozitív). Egyszerűen fogalmazva, a precizitás megválaszolja a kérdést: "A modell által pozitívnak jósolt összes elem közül hány volt ténylegesen pozitív?". A nagy pontosság azt jelenti, hogy amikor a modell pozitívnak jósol valamit, az általában helyes.
Visszahívás:
A visszahívás méri a modell azon képességét, hogy helyesen azonosítsa az összes pozitív példányt. Kiszámítása a valódi pozitív előrejelzések és a tényleges pozitív esetek teljes számához viszonyított aránya (igazi pozitív + hamis negatív). Lényegében a visszaemlékezés a következő kérdésre ad választ: "Az összes tényleges pozitív elem közül hányat azonosított helyesen a modell?". A magas visszahívás azt jelzi, hogy a modell képes azonosítani a legtöbb pozitív esetet.
F1 pontszám:
Az F1 pontszám a pontosság és a visszahívás harmonikus átlaga. Egyetlen pontszámot biztosít, amely egyensúlyban tartja a pontosságot és a felidézést. Ez a pontszám különösen akkor hasznos, ha egyensúlyt akar találni a pontosság és a visszahívás között, vagy ha az osztályok kiegyensúlyozatlanok. Az F1 pontszám 0 és 1 között mozog, ahol a magasabb érték jobb teljesítményt jelez.
Az osztályozási modell értékelésekor fontos ezeket a mutatókat együtt figyelembe venni. Például egy nagy pontosságú, de alacsony visszahívási képességű modell túlságosan óvatos lehet a pozitív előrejelzések készítésében, míg a nagy felidézéssel, de alacsony precizitású modell túlságosan liberális lehet a pozitív előrejelzésekben. Az F1-es pontszám segít egyensúlyt teremteni e két mutató között.
Ezenkívül a konkrét problémától és követelményektől függően más mérőszámok, mint például a pontosság, a fajlagosság, a ROC-görbe (a vevő működési jelleggörbéje) és az AUC (ROC-görbe alatti terület) szintén értékesek lehetnek a modell teljesítményének értékeléséhez.