Túlillesztés akkor fordul elő, amikor a modell nemcsak a betanítási adatok mögöttes mintázatait tanulja meg, hanem az adott adatkészletben található zajt és véletlenszerűséget is. Ez egy olyan modellt eredményez, amely nagyon jól teljesít a képzési adatokon, de nem képes általánosítani új, nem látott adatokra.
Azonosítás
-
Magas képzési pontosság, alacsony tesztpontosság: Az egyik elsődleges mutató az, amikor a modell kiemelkedően jól teljesít a képzési adatokon, de gyengén teljesít a teszt vagy az érvényesítési adatokon.
-
Modell összetettsége: Az overfit modellek általában túlságosan összetettek, és inkább a zajt rögzítik, mint a mögöttes mintákat.
-
Vizualizációk: Az olyan diagramok, mint a tanulási görbék, amelyek a képzési és az érvényesítési sorozatok teljesítményét mutatják, túlillesztést árulhatnak el, ha az edzési teljesítmény folyamatosan javul, miközben az érvényesítési teljesítmény platózik vagy csökken.
Megelőzés és technikák a túlszerelés enyhítésére
-
Keresztellenőrzés: Az olyan technikák, mint a k-szeres keresztellenőrzés, segíthetnek kiértékelni a modell teljesítményét az adatok különböző részhalmazain, biztosítva a jó általánosítást.
-
Train-Validation-Test Split: Az adatok különálló halmazokra osztása betanítás, érvényesítés és tesztelés céljából biztosítja, hogy a modell a nem látott adatok alapján kerüljön értékelésre.
-
Funkció kiválasztása: Csak a legrelevánsabb jellemzőket használja a modell betanításához, elkerülve a kevésbé informatív attribútumok okozta zajt.
-
Regularizálás: Az olyan technikák, mint az L1 vagy L2 regularizálás, büntetési feltételeket adnak a modell veszteségfüggvényéhez, elriasztva a túlzottan összetett modelleket.
-
Early Stopping: Figyelje a modell teljesítményét egy érvényesítési készleten, és állítsa le az edzést, ha a teljesítmény csökkenni kezd, megakadályozva ezzel, hogy a képzési adatok túloptimalizálják.
-
Együttes módszerek: Az olyan technikák használata, mint a zsákolás, kiemelés vagy egymásra rakás, több modell előrejelzésének kombinálásával csökkentheti a túlillesztést.
-
Adatkiegészítés: Bizonyos modelltípusok esetén a meglévő adatok transzformációinak vagy perturbációinak alkalmazásával további képzési adatok generálása segíthet megelőzni a túlillesztést.
A modell összetettségének, az adatkészlet méretének és a szabályosítási technikáknak a kiegyensúlyozása kulcsfontosságú a túlillesztés elkerülése érdekében, miközben biztosítja, hogy a modell jól általánosítható legyen az új, nem látott adatokra.