Kryssvalidering er en viktig teknikk som brukes til å evaluere hvor godt en modell vil fungere på nye data. Det primære målet er å vurdere modellens ytelse på en måte som minimerer problemer som overtilpasning (, der modellen lærer for mye av treningsdataene og presterer dårlig på usette data), og undertilpasning (, der modellen er for enkel til å fange opp mønstrene i dataene).
Konseptet innebærer at de tilgjengelige dataene deles opp i flere delsett, vanligvis to hoveddeler: treningssettet og valideringssettet (, som noen ganger også kalles testsettet).
En vanlig teknikk er k-fold kryssvalidering:
-
Datasettet deles inn i "k" delmengder ( eller folder) av omtrent samme størrelse.
-
Modellen trenes "k" ganger, og hver gang brukes en ny fold som valideringssett og de resterende foldene som treningssett.
-
I 5-fold kryssvalidering deles for eksempel dataene inn i fem delsett. Modellen trenes fem ganger, og hver gang brukes et annet av de fem delsettene som valideringssett og de fire andre som treningssett.
-
Ytelsesmålingene (som nøyaktighet, presisjon, tilbakekalling osv.) beregnes som et gjennomsnitt av disse "k" iterasjonene for å få et endelig ytelsesestimat.
Andre vanlige teknikker er
Leave-One-Out Kryss-validering (LOOCV) (LOOCV)
-
Hvert datapunkt fungerer som et valideringssett, og modellen trenes på resten av dataene.
-
Denne metoden er beregningskrevende for store datasett, men kan være ganske nøyaktig siden den bruker nesten alle dataene til trening.
Stratifisert kryssvalidering
- Sikrer at hver fold er representativ for hele datasettet. Den opprettholder klassefordelingen i hver fold, noe som er nyttig for ubalanserte datasett.
Kryssvalidering er avgjørende fordi det gir et mer pålitelig estimat av en modells ytelse på usette data sammenlignet med en enkelt oppdeling i test og trening. Det gjør det lettere å identifisere problemer som over- eller undertilpasning ved å gi et mer robust estimat av hvordan modellen vil generalisere til nye data.
Ved å bruke kryssvalidering kan maskinlæringspraktikere ta bedre beslutninger om modellvalg, hyperparameterjustering og vurdering av generaliseringsytelsen til en modell på usette data.