Gehiegizko egokitzapena eta gutxiegitasuna ikaskuntza automatikoko ereduetan ohikoak dira, eta ikusten ez diren datu berrietara ondo orokortzeko gaitasuna eragiten dute.
Gehiegizko egokitzea eredu batek prestakuntza-datuen azpiko ereduak ez ezik, datu horietan dauden zarata eta ausazko gorabeherak ere ikasten dituenean gertatzen da. Ondorioz, ereduak oso ondo funtzionatzen du entrenamendu-datuetan, baina ez du orokortu datu berrietara eta ikusi gabeko datuetara, funtsean, entrenamendu-multzoa memorizatu duelako.
Underfitting, aldiz, eredu bat soinegia da azpiko ereduak atzemateko prestakuntza datuetan. Prestakuntza-datuetan ez ezik, datu berrietan ere eskasa egiten du, datuetan dauden harremanak eta konplexutasunak ikasten ez dituelako.
Nola saihestu gehiegizko egokitzapena eta gutxiegitasuna
-
Balidazio gurutzatua: k-fold baliozkotze gurutzatua bezalako teknikak erabili ereduaren errendimendua datuen azpimultzo desberdinetan ebaluatzeko. Eredua datu berrietara nola orokortuko den kalkulatzen laguntzen du.
-
Tren-probaren zatiketa: zatitu zure datuak prestakuntza- eta proba-multzo bereizietan. Prestatu eredua prestakuntza-multzoan eta ebaluatu bere errendimendua proba-multzoan. Horrek eredua ikusten ez diren datuetara nola orokortzen den ebaluatzen laguntzen du.
-
Ezaugarrien hautaketa/murrizketa: murriztea ereduaren konplexutasuna ezaugarri garrantzitsuenak soilik hautatuz edo osagai nagusien analisia (PCA) bezalako teknikak erabiliz datuen dimentsioa murrizteko.
-
Erregularizazioa: L1 edo L2 erregularizazioa bezalako teknikek konplexutasunaren zigorrak gehitzen dizkiote ereduaren funtzio objektiboari, datuetan zarata gehiegi egokitzea eragotziz.
-
Ensemble metodoak: konbinatu hainbat eredu gehiegizko egokitzea eta gutxitzea murrizteko. Poltsak jartzea, bultzatzea edo pilatzea bezalako teknikek hainbat eredu erabiltzen dituzte errendimendu orokorra eta orokortzea hobetzeko.
-
Hiperparametroen doikuntza: Egokitu ereduaren hiperparametroak (adibidez, ikasketa-tasa, zuhaitzen sakonera erabaki-zuhaitzetan, etab.) sareta-bilaketa edo ausazko bilaketa bezalako teknikak erabiliz, alborapena orekatzen duen konfigurazio optimoa aurkitzeko. eta bariantza.
-
Gelditze goiztiarra: entrenamenduan zehar baliozkotze-multzo batean ereduaren errendimendua kontrolatu eta errendimendua hondatzen hasten denean entrenamendu-prozesua geldiarazi, horrela gehiegizko egokitzea ekiditeko.
-
Datu gehiago: datu kopurua handitzeak eredua hobeto orokortzen lagun dezake, azpiko banaketaren lagin anitz eta adierazgarriagoa eskainiz.
Ereduaren konplexutasunaren eta orokortzearen arteko oreka egokia aurkitzea funtsezkoa da gehiegizko egokitzapena eta ezegokitzea ekiditeko, eta teknika hauek oreka hori lortzen laguntzen dute.