Kapag sinusuri ang pagganap ng isang modelo ng pag-uuri, maraming sukatan ang maaaring gamitin, ngunit ang tatlo sa mga pinakakaraniwan ay ang katumpakan, recall, at ang F1 na marka.
Katumpakan:
Sinusukat ng katumpakan ang katumpakan ng mga positibong hula na ginawa ng modelo. Kinakalkula ito bilang ratio ng mga totoong positibong hula sa kabuuang bilang ng mga positibong hula (mga totoong positibo + maling positibo). Sa simpleng mga termino, sinasagot ng katumpakan ang tanong na: "Sa lahat ng item na hinulaang positibo ng modelo, ilan ang aktwal na positibo?". Nangangahulugan ang mataas na katumpakan na kapag hinuhulaan ng modelo ang isang bagay bilang positibo, karaniwan itong tama.
Tandaan:
Sinusukat ng recall ang kakayahan ng modelo na matukoy nang tama ang lahat ng positibong pagkakataon. Kinakalkula ito bilang ratio ng mga totoong positibong hula sa kabuuang bilang ng mga aktwal na positibong pagkakataon (mga totoong positibo + maling negatibo). Sa esensya, sinasagot ng recall ang tanong na: "Sa lahat ng aktwal na positibong item, ilan ang tama na natukoy ng modelo?". Isinasaad ng mataas na recall na matutukoy ng modelo ang karamihan sa mga positibong pagkakataon.
F1 na Iskor:
Ang F1 score ay ang harmonic mean ng precision at recall. Nagbibigay ito ng isang solong marka na nagbabalanse sa parehong katumpakan at pagpapabalik. Ang markang ito ay partikular na kapaki-pakinabang kapag gusto mong makahanap ng balanse sa pagitan ng katumpakan at pagbabalik o kapag ang mga klase ay hindi balanseng. Ang marka ng F1 ay mula 0 hanggang 1, kung saan ang isang mas mataas na halaga ay nagpapahiwatig ng mas mahusay na pagganap.
Kapag tinatasa ang isang modelo ng pag-uuri, mahalagang isaalang-alang ang mga sukatang ito nang magkasama. Halimbawa, ang isang modelo na may mataas na katumpakan ngunit mababang recall ay maaaring masyadong maingat sa paggawa ng mga positibong hula, habang ang isang modelo na may mataas na recall ngunit mababang katumpakan ay maaaring masyadong liberal sa paghula ng mga positibo. Nakakatulong ang F1 score na magkaroon ng balanse sa pagitan ng dalawang sukatan na ito.
Bukod pa rito, depende sa partikular na problema at mga kinakailangan, ang iba pang mga sukatan tulad ng katumpakan, pagtitiyak, ROC curve (receiver operating characteristic curve), at AUC (lugar sa ilalim ng ROC curve) ay maaari ding maging mahalaga para sa pagtatasa ng pagganap ng modelo.