Çapraz doğrulama modelin yeni verilənlər üzərində nə qədər yaxşı çıxış edəcəyini qiymətləndirmək üçün istifadə edilən kritik texnikadır. Əsas məqsəd modelin performansını həddən artıq uyğunlaşdırma (model təlim məlumatlarından çox şey öyrəndiyi və görünməyən məlumatlar üzərində zəif performans göstərdiyi) və uyğun olmayan (model modeldəki nümunələri tutmaq üçün çox sadə olduğu) kimi problemləri minimuma endirəcək şəkildə qiymətləndirməkdir. məlumatlar).
Konsepsiya mövcud məlumatların çoxlu alt qruplara bölünməsini, adətən iki əsas hissədən ibarətdir: təlim dəsti və doğrulama dəsti (buna bəzən test dəsti də deyilir).
Ümumi texnika k-qat çarpaz doğrulamadır:
-
Verilənlər toplusu təxminən bərabər ölçüdə 'k' alt çoxluqlara (və ya qatlara) bölünür.
-
Model 'k' dəfə öyrədilir, hər dəfə təsdiqləmə dəsti kimi fərqli qatdan və təlim dəsti kimi qalan qatlardan istifadə edilir.
-
Məsələn, 5-qat çarpaz doğrulamada məlumatlar beş alt qrupa bölünür. Model beş dəfə öyrədilir, hər dəfə beş alt dəstdən fərqli birini doğrulama dəsti, digər dördünü isə təlim dəsti kimi istifadə edir.
-
Performans göstəriciləri (dəqiqlik, dəqiqlik, geri çağırma və s. kimi) yekun performans qiymətləndirməsini əldə etmək üçün bu "k" təkrarlamaları üzrə orta hesablanır.
Digər ümumi texnikalar daxildir
Çarmıx Təsdiqləmə (LOOCV)
-
Hər bir məlumat nöqtəsi doğrulama dəsti kimi xidmət edir və model məlumatların qalan hissəsinə öyrədilir.
-
Bu metod böyük verilənlər topluları üçün hesablama baxımından bahalıdır, lakin təlim üçün demək olar ki, bütün məlumatlardan istifadə etdiyi üçün olduqca dəqiq ola bilər.
Stratifikasiyalı Çapraz Doğrulama
- Hər qatın bütün məlumat dəstini təmsil etməsini təmin edir. O, hər qatda sinif paylanmasını qoruyur, bu, balanssız məlumat dəstləri üçün faydalıdır.
Çarpaz doğrulama çox vacibdir, çünki o, tək qatar-test bölgüsü ilə müqayisədə görünməyən məlumatlar üzrə modelin performansının daha etibarlı qiymətləndirilməsini təmin edir. Bu, modelin yeni məlumatlara necə ümumiləşəcəyinə dair daha əsaslı təxmin təqdim etməklə həddən artıq uyğunlaşma və ya aşağı uyğunlaşma kimi problemlərin müəyyən edilməsinə kömək edir.
Çarpaz doğrulamadan istifadə etməklə, maşın öyrənməsi ilə məşğul olan mütəxəssislər model seçimi, hiperparametrlərin tənzimlənməsi və görünməyən məlumatlar üzərində modelin ümumiləşdirmə performansını qiymətləndirmək barədə daha yaxşı qərarlar qəbul edə bilərlər.