Ao avaliar o desempenho de um modelo de classificação, podem ser utilizadas várias métricas, mas três das mais comuns são a precisão, a recuperação e a pontuação F1.
Precisão:
A precisão mede a exatidão das previsões positivas feitas pelo modelo. É calculada como o rácio entre as previsões verdadeiras positivas e o número total de previsões positivas (verdadeiros positivos falsos positivos). Em termos simples, a precisão responde à pergunta: "De todos os itens que o modelo previu como positivos, quantos eram efetivamente positivos?". Uma precisão elevada significa que quando o modelo prevê algo como positivo, geralmente está correto.
Recordar:
A recuperação mede a capacidade do modelo para identificar corretamente todas as instâncias positivas. É calculada como o rácio entre as previsões positivas verdadeiras e o número total de instâncias positivas reais (positivos verdadeiros falsos negativos). Essencialmente, a recordação responde à pergunta: "De todos os itens positivos reais, quantos é que o modelo identificou corretamente?". Uma recuperação elevada indica que o modelo consegue identificar a maioria das instâncias positivas.
Pontuação F1:
A pontuação F1 é a média harmónica da precisão e da recuperação. Fornece uma pontuação única que equilibra a precisão e a recuperação. Esta pontuação é particularmente útil quando se pretende encontrar um equilíbrio entre a precisão e a recuperação ou quando as classes estão desequilibradas. A pontuação F1 varia de 0 a 1, em que um valor mais elevado indica um melhor desempenho.
Ao avaliar um modelo de classificação, é importante considerar estas métricas em conjunto. Por exemplo, um modelo com elevada precisão mas baixa recuperação pode ser demasiado cauteloso nas previsões positivas, enquanto um modelo com elevada recuperação mas baixa precisão pode ser demasiado liberal nas previsões positivas. A pontuação F1 ajuda a encontrar um equilíbrio entre estas duas métricas.
Além disso, dependendo do problema e dos requisitos específicos, outras métricas como a exatidão, a especificidade, a curva ROC (curva caraterística de funcionamento do receptor), e a AUC (área sob a curva ROC) também podem ser úteis para avaliar o desempenho do modelo.