K-krotna walidacja krzyżowa to technika wykorzystywana do oceny wydajności modelu. Jest to szczególnie pomocne przy szacowaniu , jak dobrze model uogólni się na nowe, niewidoczne dane. Proces ten polega na podzieleniu zbioru danych na "k" podzbiorów lub fałd o w przybliżeniu równej wielkości. Oto podział kroków:
1. Podział zbioru danych:
Zbiór danych jest podzielony na "k" równej wielkości podzbiorów lub fałd. Na przykład, jeśli masz 1000 próbek i wybierzesz "k" jako 5, każda fałda będzie zawierać 200 próbek.
2. Iteracyjne szkolenie i ocena:
Model jest trenowany "k" razy. W każdej iteracji, inne złożenie jest używane jako zestaw walidacyjny, a pozostałe złożenia są używane do treningu. Na przykład:
-
Iteracja 1: Fold 1 jako walidacja, Folds 2 do k do treningu
-
Iteracja 2: Fałd 2 jako walidacja, fałdy 1 i 3 do k dla treningu
-
Iteracja 3: Fałd 3 jako walidacja, fałdy 1 i 2 oraz 4 do k do treningu
-
... i tak dalej, aż wszystkie fałdy zostaną użyte jako zestaw walidacyjny.
3. Ocena wyników:
Po każdej iteracji wydajność modelu jest oceniana przy użyciu wybranej metryki (np. dokładności, precyzji, wycofania itp. na zbiorze walidacyjnym. Wskaźniki wydajności z każdej iteracji są uśredniane lub łączone w celu uzyskania ogólnego oszacowania wydajności modelu.
4. Agregacja wskaźników:
Wskaźniki wydajności (np. wyniki dokładności) z każdej iteracji są uśredniane lub łączone w celu zapewnienia ogólnej oceny wydajności modelu. Ta zagregowana metryka reprezentuje oczekiwaną wydajność modelu na niewidocznych danych.
Zalety k-krotnej walidacji krzyżowej w porównaniu z prostym podziałem na trening/test
-
Lepsze wykorzystanie danych: K-krotna walidacja krzyżowa lepiej wykorzystuje dostępne dane, ponieważ każda próbka jest używana zarówno do szkolenia, jak i walidacji.
-
Zmniejszona wariancja w szacowaniu wydajności: Zapewnia bardziej wiarygodne oszacowanie wydajności modelu poprzez zmniejszenie wariancji związanej z pojedynczym podziałem trening/test.
-
Uogólnienie: Pomaga zrozumieć, jak model działa na różnych podzbiorach danych, a tym samym ocenić jego zdolność do generalizacji.
Wybór wartości "k
-
Wyższe wartości"k": Użycie wyższej wartości "k" (np. 10 lub więcej) skutkuje mniejszymi zestawami walidacyjnymi, co może prowadzić do mniejszego odchylenia w oszacowaniu wydajności, ale wyższego kosztu obliczeniowego.
-
Niższe wartości"k": Użycie niższej wartości "k" (np. 3 lub 5) zmniejsza koszty obliczeniowe, ale może prowadzić do większego odchylenia w oszacowaniu wydajności z powodu mniejszych zestawów walidacyjnych.
W praktycznych scenariuszach
-
W przypadku dużych zbiorów danych wyższe wartości "k" mogą być kosztowne obliczeniowo.
-
Gdy zbiór danych jest niewielki, wyższe "k" może nie zapewnić wystarczającej ilości danych w każdym złożeniu, aby zapewnić solidne szkolenie modelu.
-
Ogólnie rzecz biorąc, wartości takie jak 5 lub 10 są powszechnie stosowane, ponieważ zapewniają równowagę między wydajnością obliczeniową a wiarygodnym oszacowaniem wydajności.