Gehiegizko egokitzea eredu batek prestakuntza-datuen azpiko ereduak ez ezik, datu multzo zehatz horretan dauden zarata eta ausazkotasuna ere ikasten dituenean gertatzen da. Honen ondorioz, prestakuntza-datuetan oso ondo funtzionatzen du baina ez du orokortu datu berrietara, ikusten ez direnak.
Identifikazioa
-
Entrenamenduaren zehaztasun handia, probaren zehaztasun baxua: adierazle nagusietako bat da ereduak prestakuntza-datuetan oso ondo egiten duenean, baina proba- edo baliozkotze-datuetan gaizki egiten duenean.
-
Ereduaren konplexutasuna: Gehiegizko ereduak konplexuegiak izan ohi dira, azpiko ereduak baino zarata harrapatzen baitute.
-
Bistaratzeak: entrenamendu- eta baliozkotze-multzoetan errendimendua erakusten duten ikasketa-kurbak bezalako grafikoek gehiegizko egokitzapena ager dezakete entrenamendu-errendimendua hobetzen jarraitzen badu, baliozkotze-errendimendua lautada edo behera egiten duen bitartean.
Prebentzioa eta gehiegizko egokitzapena arintzeko teknikak
-
Balidazio gurutzatua: K-fold baliozkotze gurutzatua bezalako teknikek ereduaren errendimendua ebaluatzen lagun dezakete datuen azpimultzo desberdinetan, ondo orokortzen dela ziurtatuz.
-
Tren-Balioztatze-Proba zatitzea: datuak entrenatzeko, baliozkotzeko eta probak egiteko multzo ezberdinetan banatzeak eredua ikusten ez diren datuekin ebaluatzen dela ziurtatzen du.
-
Ezaugarrien hautaketa: Erabili ezaugarri garrantzitsuenak soilik eredua entrenatzeko, informazio gutxiagoko atributuetako zarata saihestuz.
-
Erregularizazioa: L1 edo L2 erregularizazioa bezalako teknikek zigor-terminoak gehitzen dizkiote ereduaren galera-funtzioari, eredu konplexuegiak gaitzetsiz.
-
Gelditze goiztiarra: kontrolatu ereduaren errendimendua baliozkotze-multzo batean eta gelditu entrenamendua errendimendua hondatzen hasten denean, prestakuntza-datuen gehiegizko optimizazioa saihestuz.
-
Ensemble metodoak: poltsak egitea, bultzatzea edo pilatzea bezalako teknikak erabiltzeak gehiegizko egokitzapena murrizten lagun dezake, hainbat modeloren iragarpenak konbinatuz.
-
Datuen gehikuntza: eredu jakin batzuetarako, lehendik dauden datuei eraldaketak edo perturbazioak aplikatuz prestakuntza-datu gehigarriak sortzeak gehiegizko egokitzea saihesten lagun dezake.
Ereduaren konplexutasuna, datu-multzoaren tamaina eta erregularizazio-teknikak orekatzea funtsezkoa da gehiegizko egokitzea saihesteko, eredua ondo orokortzen dela ikusten ez diren datu berrietara.