Křížová validace je kritická technika používaná k vyhodnocení toho, jak dobře bude model fungovat na nových datech. Primárním cílem je posoudit výkon modelu způsobem, který minimalizuje problémy, jako je nadměrné přizpůsobení (kdy se model učí příliš mnoho z trénovacích dat a funguje špatně na neviditelných datech) a nedostatečné přizpůsobení (kde je model příliš zjednodušený na to, aby zachytil vzory v data).
Koncept zahrnuje rozdělení dostupných dat do více podmnožin, typicky dvou hlavních částí: trénovací sady a ověřovací sady (která se také někdy nazývá testovací sada).
Běžnou technikou je k-násobná křížová validace:
-
Soubor dat je rozdělen do 'k' podmnožin (nebo záhybů) přibližně stejné velikosti.
-
Model je trénován 'k'krát, pokaždé s použitím jiného záhybu jako ověřovací sady a zbývajících záhybů jako trénovací sady.
-
Například při 5násobné křížové validaci jsou data rozdělena do pěti podmnožin. Model je trénován pětkrát, pokaždé s použitím jiné z pěti podmnožin jako ověřovací sady a dalších čtyř jako trénovací sady.
-
Metriky výkonu (jako je přesnost, preciznost, odvolání atd.) jsou zprůměrovány v těchto „k“ iteracích, aby se získal konečný odhad výkonu.
Mezi další běžné techniky patří
Křížová validace typu Leave-One-Out (LOOCV)
-
Každý datový bod slouží jako ověřovací sada a model je trénován na zbývajících datech.
-
Tato metoda je výpočetně nákladná pro velké soubory dat, ale může být docela přesná, protože používá téměř všechna data pro trénování.
Stratified Cross-Validation
- Zajišťuje, že každý sklad je reprezentativní pro celý soubor dat. Udržuje rozdělení tříd v každém záhybu, což je užitečné pro nevyvážené datové sady.
Křížová validace je zásadní, protože poskytuje spolehlivější odhad výkonu modelu na neviditelných datech ve srovnání s jedním rozdělením testu vlaku. Pomáhá při identifikaci problémů, jako je nadměrné vybavení nebo nedostatečné vybavení tím, že poskytuje robustnější odhad toho, jak se model zobecní na nová data.
Pomocí křížové validace mohou praktici strojového učení lépe rozhodovat o výběru modelu, ladění hyperparametrů a hodnocení výkonu zobecnění modelu na neviditelných datech.