Perdengimas įvyksta, kai modelis išmoksta ne tik pagrindinius mokymo duomenų šablonus, bet ir triukšmą bei atsitiktinumą, esančius tame konkrečiame duomenų rinkinyje. Taip gaunamas modelis, kuris labai gerai veikia su treniruočių duomenimis, bet negali apibendrinti į naujus, nematytus duomenis.
Identifikavimas
-
Didelis treniruočių tikslumas, žemas testo tikslumas: vienas iš pagrindinių rodiklių yra tai, kai modelis ypač gerai veikia pagal treniruočių duomenis, bet prastai pagal testo ar patvirtinimo duomenis.
-
Modelio sudėtingumas: „Overfit“ modeliai paprastai būna pernelyg sudėtingi, fiksuoja triukšmą, o ne pagrindinius modelius.
-
Vizualizacijos: tokios diagramos kaip mokymosi kreivės, rodančios mokymo ir patvirtinimo rinkinių našumą, gali atskleisti per daug pritaikymą, jei treniruočių našumas ir toliau gerėja, kol patvirtinimo našumas didėja arba mažėja.
Prevencija ir permontavimo mažinimo būdai
-
Kryžminis patvirtinimas: tokie metodai kaip k kartų kryžminis patvirtinimas gali padėti įvertinti modelio našumą įvairiuose duomenų pogrupiuose ir užtikrinti, kad jis būtų gerai apibendrintas.
-
Traukinio patvirtinimo ir bandymo padalijimas: duomenų padalijimas į atskirus rinkinius mokymui, patvirtinimui ir testavimui užtikrina, kad modelis būtų įvertintas pagal neregėtus duomenis.
-
Funkcijų pasirinkimas: modeliui treniruoti naudokite tik svarbiausias funkcijas, vengdami mažiau informatyvių atributų keliamo triukšmo.
-
Reguliavimas: taikant tokius metodus kaip L1 arba L2 sureguliavimas prideda baudos terminus prie modelio praradimo funkcijos, atgrasant nuo pernelyg sudėtingų modelių.
-
Ankstyvas sustabdymas: stebėkite modelio našumą patvirtinimo rinkinyje ir sustabdykite treniruotę, kai našumas pradeda blogėti, neleisdamas per daug optimizuoti treniruočių duomenų.
-
Komplektavimo metodai: naudojant tokius metodus kaip sudėjimas į maišus, pakėlimas arba sudėjimas gali padėti sumažinti perteklinį pritaikymą derinant kelių modelių prognozes.
– Duomenų papildymas: tam tikrų tipų modeliams papildomų mokymo duomenų generavimas taikant esamų duomenų transformacijas ar trikdžius gali padėti išvengti per didelio pritaikymo.
Subalansuoti modelio sudėtingumą, duomenų rinkinio dydį ir reguliavimo metodus yra labai svarbu, kad būtų išvengta per didelio pritaikymo, kartu užtikrinant, kad modelis gerai apibendrintų naujus, nematomus duomenis.