Nøglemålinger for klassifikationsmodeller

Senest opdateret June 19, 2024 2 minutters læsning

Ved evaluering af en klassifikationsmodels ydeevne kan der bruges flere metrics, men tre af de mest almindelige er præcision, recall og F1-score.

Præcision:

Præcision måler nøjagtigheden af de positive forudsigelser lavet af modellen. Det beregnes som forholdet mellem sande positive forudsigelser og det samlede antal positive forudsigelser (sande positive + falske positive). Enkelt sagt besvarer præcision spørgsmålet: “Af alle de elementer, som modellen forudsagde som positive, hvor mange var faktisk positive?”. Høj præcision betyder, at når modellen forudsiger noget som positivt, er det normalt korrekt.

Husk:

Recall måler modellens evne til korrekt at identificere alle positive tilfælde. Det beregnes som forholdet mellem sande positive forudsigelser og det samlede antal faktiske positive tilfælde (sande positive + falske negative). I det væsentlige svarer recall på spørgsmålet: “Af alle de faktiske positive elementer, hvor mange identificerede modellen korrekt?”. Høj tilbagekaldelse indikerer, at modellen kan identificere de fleste af de positive tilfælde.

F1-score:

F1-score er det harmoniske middel for præcision og genkaldelse. Det giver en enkelt score, der balancerer både præcision og genkaldelse. Denne score er især nyttig, når du ønsker at finde en balance mellem præcision og genkaldelse eller når klasserne er ubalancerede. F1-score går fra 0 til 1, hvor en højere værdi indikerer bedre ydeevne.

Når du vurderer en klassifikationsmodel, er det vigtigt at overveje disse målinger sammen. For eksempel kan en model med høj præcision, men lav genkaldelse være alt for forsigtig med at lave positive forudsigelser, mens en model med høj genkaldelse men lav præcision kan være for liberal til at forudsige positive. F1-resultatet hjælper med at skabe balance mellem disse to målinger.

Afhængigt af det specifikke problem og de specifikke krav kan andre målinger som nøjagtighed, specificitet, ROC-kurve (receiver operation characteristic curve) og AUC (areal under ROC-kurven) også være værdifulde til at vurdere modellens ydeevne.