Nøkkelberegninger for klassifiseringsmodeller

Oppdatert på June 22, 2024 2 minutter lest

Ved evaluering av ytelsen til en klassifiseringsmodell kan flere beregninger brukes, men tre av de vanligste er presisjon, recall og F1-score.

Presisjon:

Presisjon måler nøyaktigheten til de positive spådommene som er gjort av modellen. Det beregnes som forholdet mellom sanne positive spådommer og det totale antallet positive spådommer (sanne positive + falske positive). Enkelt sagt svarer presisjon på spørsmålet: “Av alle elementene som modellen spådde som positive, hvor mange var faktisk positive?”. Høy presisjon betyr at når modellen forutsier noe som positivt, er det vanligvis riktig.

Husk:

Tilbakekalling måler modellens evne til å identifisere alle positive tilfeller korrekt. Det beregnes som forholdet mellom sanne positive spådommer og det totale antallet faktiske positive tilfeller (sanne positive + falske negative). I hovedsak svarer recall på spørsmålet: “Av alle de faktiske positive elementene, hvor mange identifiserte modellen riktig?”. Høy tilbakekalling indikerer at modellen kan identifisere de fleste positive tilfellene.

F1-poengsum:

F1-score er det harmoniske gjennomsnittet av presisjon og gjenkalling. Det gir en enkelt poengsum som balanserer både presisjon og gjenkalling. Denne poengsummen er spesielt nyttig når du vil finne en balanse mellom presisjon og gjenkalling eller når klassene er ubalanserte. F1-score varierer fra 0 til 1, hvor en høyere verdi indikerer bedre ytelse.

Når du vurderer en klassifiseringsmodell, er det viktig å vurdere disse beregningene sammen. For eksempel kan en modell med høy presisjon men lav gjenkalling være for forsiktig med å gi positive spådommer, mens en modell med høy gjenkalling men lav presisjon kan være for liberal når det gjelder å forutsi positive. F1-poengsummen bidrar til å finne en balanse mellom disse to beregningene.

I tillegg, avhengig av det spesifikke problemet og kravene, kan andre beregninger som nøyaktighet, spesifisitet, ROC-kurve (mottakerdriftskarakteristikkkurve) og AUC (areal under ROC-kurven) også være verdifulle for å vurdere modellens ytelse.