Pri hodnotení výkonnosti klasifikačného modelu možno použiť niekoľko metrík, ale tri z najbežnejších sú presnosť, vybavenie a skóre F1.
Presnosť:
Presnosť meria presnosť pozitívnych predpovedí vytvorených modelom. Vypočítava sa ako pomer skutočne pozitívnych predpovedí k celkovému počtu pozitívnych predpovedí (skutočne pozitívne + falošne pozitívne). Jednoducho povedané, presnosť odpovedá na otázku: „Koľko zo všetkých položiek, ktoré model predpovedal ako pozitívne, bolo skutočne pozitívnych?“. Vysoká presnosť znamená, že keď model predpovedá niečo ako pozitívne, je to zvyčajne správne.
Pripomeňme si:
Recall meria schopnosť modelu správne identifikovať všetky pozitívne prípady. Vypočítava sa ako pomer skutočne pozitívnych predpovedí k celkovému počtu skutočných pozitívnych prípadov (skutočne pozitívne + falošne negatívne). V podstate, reminiscencia odpovedá na otázku: „Koľko zo všetkých skutočných pozitívnych položiek model správne identifikoval?“. Vysoká pripomienka naznačuje, že model dokáže identifikovať väčšinu pozitívnych prípadov.
Skóre F1:
Skóre F1 je harmonický priemer presnosti a vybavovania. Poskytuje jediné skóre, ktoré vyvažuje presnosť a zapamätanie. Toto skóre je užitočné najmä vtedy, keď chcete nájsť rovnováhu medzi presnosťou a vyvolaním alebo keď sú triedy nevyvážené. Skóre F1 sa pohybuje od 0 do 1, pričom vyššia hodnota znamená lepší výkon.
Pri posudzovaní klasifikačného modelu je dôležité zvážiť tieto metriky spoločne. Napríklad model s vysokou presnosťou, ale nízkou presnosťou môže byť príliš opatrný pri vytváraní pozitívnych predpovedí, zatiaľ čo model s vysokou presnosťou, ale nízkou presnosťou môže byť príliš liberálny pri predpovedaní pozitív. Skóre F1 pomáha nájsť rovnováhu medzi týmito dvoma metrikami.
Okrem toho, v závislosti od konkrétneho problému a požiadaviek, ďalšie metriky, ako je presnosť, špecifickosť, krivka ROC (krivka prevádzkovej charakteristiky prijímača) a AUC (oblasť pod krivkou ROC), môžu byť tiež cenné pre hodnotenie výkonu modelu.