Ristivahvistus on kriittinen tekniikka, jolla arvioidaan kuinka hyvin malli toimii uusilla tiedoilla. Ensisijaisena tavoitteena on arvioida mallin suorituskykyä tavalla, joka minimoi ongelmat, kuten liiallisen sovituksen (jolloin malli oppii liikaa harjoitustiedoista ja toimii huonosti näkymättömällä tiedolla) ja alisovitusta (jos malli on liian yksinkertaista kaapatakseen kuvioita tiedot).
Konsepti sisältää saatavien tietojen jakamisen useisiin osajoukkoon, tyypillisesti kahteen pääosaan: koulutussarjaan ja validointisarjaan (jota kutsutaan joskus myös testijoukoksi).
Yleinen tekniikka on k-kertainen ristiinvalidointi:
-
Tietojoukko on jaettu suunnilleen samankokoisiin "k" osajoukkoon (tai taiteeseen).
-
Mallia harjoitellaan "k" kertaa, joka kerta käyttämällä erilaista taitosta vahvistussarjana ja loput taitokset harjoitussarjana.
-
Esimerkiksi 5-kertaisessa ristiinvalidaatiossa tiedot jaetaan viiteen osajoukkoon. Mallia opetetaan viisi kertaa, joka kerta käyttämällä eri viidestä osajoukosta validointijoukona ja neljää muuta koulutussarjana.
-
Suorituskykymittareiden (kuten tarkkuus, tarkkuus, muistaminen jne.) keskiarvo lasketaan näiden "k" iteraatioiden kesken lopullisen suoritusarvion saamiseksi.
Muita yleisiä tekniikoita ovat mm
Jätä yksi pois ristivahvistus (LOOCV)
-
Jokainen datapiste toimii validointijoukkona, ja mallia opetetaan muun tiedon perusteella.
-
Tämä menetelmä on laskennallisesti kallis suurille tietojoukoille, mutta voi olla melko tarkka, koska se käyttää lähes kaiken datan koulutukseen.
Stratified Cross Validation
- Varmistaa, että jokainen taitto edustaa koko tietojoukkoa. Se ylläpitää luokkajakaumaa jokaisessa taitteessa, mikä on hyödyllistä epätasapainoisissa tietojoukoissa.
Ristiinvalidointi on ratkaisevan tärkeää, koska se tarjoaa luotettavamman arvion mallin suorituskyvystä näkymättömissä tiedoissa verrattuna yksittäiseen junan testijakoon. Se auttaa tunnistamaan ongelmia, kuten yli- taialisovitus**, sillä se tarjoaa luotettavamman arvion siitä, kuinka malli yleistyy uusiin tietoihin.
Ristiinvalidoinnin avulla koneoppimisen harjoittajat voivat tehdä parempia päätöksiä mallin valinnasta, hyperparametrien virittämisestä ja mallin yleistyssuorituskyvyn arvioinnista näkymättömällä tiedolla.