Křížová validace K-fold je technika používaná k hodnocení výkonu modelu. Je to užitečné zejména pro odhad, jak dobře model zobecní na nová, neviditelná data. Proces zahrnuje rozdělení datové sady do „k“ podmnožin nebo záhybů přibližně stejné velikosti. Zde je rozpis kroků:
1. Rozdělení datové sady:
Soubor dat je rozdělen do „k“ stejně velkých podmnožin nebo záhybů. Pokud máte například 1 000 vzorků a zvolíte 'k' jako 5, bude každý sklad obsahovat 200 vzorků.
2. Iterativní školení a hodnocení:
Model je natrénován 'k' krát. V každé iteraci se jako ověřovací sada používá jiný záhyb a zbývající záhyby se používají pro trénování. Například:
-
Iterace 1: Složení 1 jako ověření, Složení 2 až k pro trénink
-
Iterace 2: Záhyb 2 jako ověření, záhyby 1 a 3 až k pro školení
-
Iterace 3: Složení 3 jako ověření, složení 1 a 2 a 4 až k pro školení
-
... a tak dále, dokud nebudou všechny foldy použity jako ověřovací sada.
3. Hodnocení výkonu:
Po každé iteraci je výkonnost modelu vyhodnocena pomocí zvolené metriky (např. přesnost, přesnost, vyvolání atd.) na ověřovací sadě. Metriky výkonu z každé iterace jsou zprůměrovány nebo kombinovány, aby poskytly celkový odhad výkonu modelu.
4. Agregace metrik:
Metriky výkonu (např. skóre přesnosti) z každé iterace jsou zprůměrovány nebo kombinovány, aby poskytly celkové hodnocení výkonu modelu. Tato agregovaná metrika představuje očekávaný výkon modelu na neviditelných datech.
Výhody křížové validace K-násobku oproti jednoduchému rozdělení vlak/test
-
Lepší využití dat: K-násobná křížová validace lépe využívá dostupná data, protože každý vzorek se používá jak pro školení, tak pro validaci.
-
Snížená odchylka v odhadu výkonu: Poskytuje spolehlivější odhad výkonu modelu snížením rozptylu spojeného s jedním rozdělením vlaku/testu.
-
Zobecnění: Pomáhá porozumět tomu, jak model funguje na různých podskupinách dat, a tím posoudit jeho schopnost zobecnění.
Výběr hodnoty 'k'
– Vyšší hodnoty „k“: Použití vyšší hodnoty „k“ (např. 10 nebo více) vede k menším ověřovacím sadám, což může vést k nižšímu zkreslení v odhadu výkonu, ale vyšším nákladům na výpočetní techniku.
– Nižší hodnoty „k“: Použití nižší hodnoty „k“ (např. 3 nebo 5) snižuje výpočetní náklady, ale může vést k vyššímu zkreslení v odhadu výkonu kvůli menšímu ověření sady.
V praktických scénářích
-
U velkých souborů dat mohou být vyšší hodnoty „k“ výpočetně nákladné.
-
Když je datová sada malá, vyšší „k“ nemusí poskytnout dostatek dat v každém záhybu pro robustní trénování modelu.
-
Obecně se běžně používají hodnoty jako 5 nebo 10, protože vytvářejí rovnováhu mezi výpočetní účinností a spolehlivým odhadem výkonu.