Potęga technik weryfikacji krzyżowej

Zaktualizowano na June 05, 2024 2 Przeczytaj minuty

Walidacja krzyżowa jest krytyczną techniką stosowaną do oceny , jak dobrze model będzie działał na nowych danych. Głównym celem jest ocena wydajności modelu w sposób, który minimalizuje takie kwestie jak nadmierne dopasowanie (, w którym model uczy się zbyt wiele z danych treningowych i działa słabo na niewidocznych danych) oraz niedostateczne dopasowanie (, w którym model jest zbyt uproszczony, aby uchwycić wzorce w danych).

Koncepcja ta polega na podzieleniu dostępnych danych na wiele podzbiorów, zazwyczaj dwie główne części: zbiór uczący i zbiór walidacyjny (, który czasami nazywany jest również zbiorem testowym).

Powszechną techniką jest k-krotna walidacja krzyżowa:

Zbiór danych jest podzielony na “k” podzbiorów ( lub fałd) o w przybliżeniu równej wielkości.
Model jest trenowany “k” razy, za każdym razem przy użyciu innego złożenia jako zestawu walidacyjnego i pozostałych złożeń jako zestawu treningowego.
Na przykład w 5-krotnej walidacji krzyżowej dane są dzielone na pięć podzbiorów. Model jest trenowany pięć razy, za każdym razem przy użyciu innego z pięciu podzbiorów jako zestawu walidacyjnego i pozostałych czterech jako zestawu treningowego.
Wskaźniki wydajności (, takie jak dokładność, precyzja, wycofanie itp. są uśredniane w tych “k” iteracjach, aby uzyskać ostateczne oszacowanie wydajności.

Inne popularne techniki obejmują

Leave-One-Out Cross-Validation (LOOCV)

Każdy punkt danych służy jako zestaw walidacyjny, a model jest trenowany na pozostałych danych.
Metoda ta jest kosztowna obliczeniowo w przypadku dużych zbiorów danych, ale może być dość dokładna, ponieważ wykorzystuje prawie wszystkie dane do szkolenia.

Stratyfikowana weryfikacja krzyżowa

Zapewnia, że każde zagięcie jest reprezentatywne dla całego zbioru danych. Zachowuje rozkład klas w każdym zagięciu, co jest pomocne w przypadku niezrównoważonych zbiorów danych.

Walidacja krzyżowa ma kluczowe znaczenie, ponieważ zapewnia bardziej wiarygodne oszacowanie wydajności modelu na niewidocznych danych w porównaniu z pojedynczym podziałem trening-test. Pomaga zidentyfikować kwestie takie jak nadmierne lub niedostateczne dopas owanie, zapewniając bardziej wiarygodne oszacowanie, w jaki sposób model uogólni się na nowe dane.

Korzystając z walidacji krzyżowej, praktycy uczenia maszynowego mogą podejmować lepsze decyzje dotyczące wyboru modelu, dostrajania hiperparametrów i oceny wydajności uogólniania modelu na niewidocznych danych.