Walidacja krzyżowa jest krytyczną techniką stosowaną do oceny , jak dobrze model będzie działał na nowych danych. Głównym celem jest ocena wydajności modelu w sposób, który minimalizuje takie kwestie jak nadmierne dopasowanie (, w którym model uczy się zbyt wiele z danych treningowych i działa słabo na niewidocznych danych) oraz niedostateczne dopasowanie (, w którym model jest zbyt uproszczony, aby uchwycić wzorce w danych).
Koncepcja ta polega na podzieleniu dostępnych danych na wiele podzbiorów, zazwyczaj dwie główne części: zbiór uczący i zbiór walidacyjny (, który czasami nazywany jest również zbiorem testowym).
Powszechną techniką jest k-krotna walidacja krzyżowa:
-
Zbiór danych jest podzielony na "k" podzbiorów ( lub fałd) o w przybliżeniu równej wielkości.
-
Model jest trenowany "k" razy, za każdym razem przy użyciu innego złożenia jako zestawu walidacyjnego i pozostałych złożeń jako zestawu treningowego.
-
Na przykład w 5-krotnej walidacji krzyżowej dane są dzielone na pięć podzbiorów. Model jest trenowany pięć razy, za każdym razem przy użyciu innego z pięciu podzbiorów jako zestawu walidacyjnego i pozostałych czterech jako zestawu treningowego.
-
Wskaźniki wydajności (, takie jak dokładność, precyzja, wycofanie itp. są uśredniane w tych "k" iteracjach, aby uzyskać ostateczne oszacowanie wydajności.
Inne popularne techniki obejmują
Leave-One-Out Cross-Validation (LOOCV)
-
Każdy punkt danych służy jako zestaw walidacyjny, a model jest trenowany na pozostałych danych.
-
Metoda ta jest kosztowna obliczeniowo w przypadku dużych zbiorów danych, ale może być dość dokładna, ponieważ wykorzystuje prawie wszystkie dane do szkolenia.
Stratyfikowana weryfikacja krzyżowa
- Zapewnia, że każde zagięcie jest reprezentatywne dla całego zbioru danych. Zachowuje rozkład klas w każdym zagięciu, co jest pomocne w przypadku niezrównoważonych zbiorów danych.
Walidacja krzyżowa ma kluczowe znaczenie, ponieważ zapewnia bardziej wiarygodne oszacowanie wydajności modelu na niewidocznych danych w porównaniu z pojedynczym podziałem trening-test. Pomaga zidentyfikować kwestie takie jak nadmierne lub niedostateczne dopas owanie, zapewniając bardziej wiarygodne oszacowanie, w jaki sposób model uogólni się na nowe dane.
Korzystając z walidacji krzyżowej, praktycy uczenia maszynowego mogą podejmować lepsze decyzje dotyczące wyboru modelu, dostrajania hiperparametrów i oceny wydajności uogólniania modelu na niewidocznych danych.