Pri ocenjevanju uspešnosti klasifikacijskega modela je mogoče uporabiti več meritev, vendar so tri najpogostejše natančnost, priklic in rezultat F1.
Natančnost:
Natančnost meri točnost pozitivnih napovedi modela. Izračuna se kot razmerje med resničnimi pozitivnimi napovedmi in skupnim številom pozitivnih napovedi (resnične pozitivne + lažno pozitivne). Preprosto povedano, natančnost odgovarja na vprašanje: "Koliko od vseh elementov, ki jih je model predvidel kot pozitivne, je bilo dejansko pozitivnih?". Visoka natančnost pomeni, da ko model nekaj napove kot pozitivno, je običajno pravilno.
Odpoklic:
Odpoklic meri sposobnost modela, da pravilno prepozna vse pozitivne primere. Izračuna se kot razmerje med resničnimi pozitivnimi napovedmi in skupnim številom dejanskih pozitivnih primerov (resnično pozitivni + lažno negativni). V bistvu odpoklic odgovarja na vprašanje: "Koliko od vseh dejanskih pozitivnih postavk jih je model pravilno identificiral?". Visok priklic kaže, da lahko model prepozna večino pozitivnih primerov.
Rezultat F1:
Rezultat F1 je harmonična sredina natančnosti in priklica. Zagotavlja enoten rezultat, ki uravnoteži tako natančnost kot priklic. Ta rezultat je še posebej uporaben, ko želite najti ravnotežje med natančnostjo in priklicem ali ko so razredi neuravnoteženi. Rezultat F1 se giblje od 0 do 1, kjer višja vrednost pomeni boljšo zmogljivost.
Pri ocenjevanju klasifikacijskega modela je pomembno, da te metrike upoštevate skupaj. Na primer, model z visoko natančnostjo, vendar nizkim priklicem je lahko preveč previden pri pozitivnih napovedih, medtem ko je model z visokim priklicem, vendar nizko natančnostjo, morda preveč liberalen pri napovedovanju pozitivnih rezultatov. Rezultat F1 pomaga vzpostaviti ravnotežje med tema dvema meritvama.
Poleg tega so lahko glede na določeno težavo in zahteve druge metrike, kot so natančnost, specifičnost, krivulja ROC (krivulja delovanja sprejemnika) in AUC (površina pod krivuljo ROC), koristne tudi za ocenjevanje delovanja modela.