K-szeres keresztellenőrzés a gépi tanulásban

Frissítve: July 14, 2026 Olvasási idő: 2 perc

A K-szeres keresztellenőrzés egy modell teljesítményének felmérésére használt technika. Ez különösen hasznos annak becsléséhez, milyen jól általánosít egy modell az új, nem látott adatokra. A folyamat során az adatkészletet körülbelül azonos méretű „k” részhalmazokra vagy hajtásokra osztják. Íme a lépések lebontása:

1. Adatkészlet felosztása:

Az adatkészlet „k” egyenlő méretű részhalmazra vagy hajtásra van felosztva. Például, ha 1000 mintája van, és a „k” értéket 5-re választja, minden hajtás 200 mintát tartalmaz.

2. Iteratív képzés és értékelés:

A modellt „k”-szer betanítják. Minden iterációban más-más hajtást használnak érvényesítési halmazként, a fennmaradó hajtásokat pedig a képzéshez. Például:

1. iteráció: Hajtsa be az 1-et érvényesítésként, hajtsa 2-t k-ra az edzéshez
2. iteráció: Hajtsa be a 2-t érvényesítésként, az 1-et és a 3-at hajtsa k-ra az edzéshez
3. iteráció: Hajtsa be a 3-at érvényesítésként, az 1. és 2. hajtást, valamint az edzéshez 4-et k-ra
... és így tovább, amíg az összes hajtást érvényesítő készletként nem használták fel.

3. Teljesítményértékelés:

Minden iteráció után a modell teljesítményét egy kiválasztott mérőszám (pl. pontosság, precizitás, visszahívás stb.) segítségével értékelik az érvényesítési halmazon. Az egyes iterációk teljesítménymutatóit átlagolják vagy kombinálják, hogy a modell teljesítményének általános becslését kapják.

4. A mutatók összesítése:

Az egyes iterációk teljesítménymutatóit (pl. pontossági pontszámokat) átlagolják vagy kombinálják, hogy átfogó értékelést kapjanak a modell teljesítményéről. Ez az összesített mérőszám a modell várható teljesítményét mutatja a nem látott adatokon.

A K-szeres keresztellenőrzés előnyei az egyszerű vonat/teszt felosztással szemben

Az adatok jobb felhasználása: A K-szeres keresztellenőrzés jobban kihasználja a rendelkezésre álló adatokat, mivel minden mintát mind képzésre, mind érvényesítésre használnak.
Csökkentett eltérés a teljesítménybecslésben: Megbízhatóbb becslést ad a modell teljesítményéről azáltal, hogy csökkenti az egyetlen vonat/teszt felosztáshoz kapcsolódó eltérést.
Általánosítás: Segít megérteni, hogy a modell hogyan teljesít az adatok különböző részhalmazain, így értékeli az általánosítási képességét.

A 'k' értékének kiválasztása

Magasabb "k" értékek: A magasabb "k" érték használata (pl. 10 vagy több) kisebb ellenőrzési halmazokat eredményez, ami kisebb torzításhoz vezethet a teljesítménybecslésben, de magasabb számítási költséghez vezethet..
Alsó „k” értékek: alacsonyabb „k” érték használata (pl. 3 vagy 5) csökkenti a számítási költségeket, de nagyobb torzításhoz vezethet a teljesítménybecslésben a kisebb érvényesítés miatt készletek.

Gyakorlati forgatókönyvekben

Nagy adathalmazok esetén a magasabb „k” értékek számítási szempontból költségesek lehetnek.
Ha az adatkészlet kicsi, előfordulhat, hogy a nagyobb „k” nem biztosít elegendő adatot minden hajtásban a robusztus modellképzéshez.
Általában olyan értékeket használnak, mint az 5 vagy 10, mivel ezek egyensúlyt teremtenek a számítási hatékonyság és a megbízható teljesítménybecslés között.

Tanuljon meg keresett tech készségeket online a Code Labs Academyvel

Csatlakozzon támogató közösségünkhöz, hozza ki magából a legtöbbet, és indítsa el tech karrierjét.

Finanszírozás

Alumni

Tanulási központ

Rólunk

Közösség

Cégeknek