Machine Learning ereduetan gehiegizko egokitzea ulertzea eta saihestea

Eguneratua September 24, 2024 2 Irakurri minutuak

Machine Learning ereduetan gehiegizko egokitzea ulertzea eta saihestea cover image

Gehiegizko egokitzea eredu batek prestakuntza-datuen azpiko ereduak ez ezik, datu multzo zehatz horretan dauden zarata eta ausazkotasuna ere ikasten dituenean gertatzen da. Honen ondorioz, prestakuntza-datuetan oso ondo funtzionatzen du baina ez du orokortu datu berrietara, ikusten ez direnak.

Identifikazioa

  • Entrenamenduaren zehaztasun handia, probaren zehaztasun baxua: adierazle nagusietako bat da ereduak prestakuntza-datuetan oso ondo egiten duenean, baina proba- edo baliozkotze-datuetan gaizki egiten duenean.

  • Ereduaren konplexutasuna: Gehiegizko ereduak konplexuegiak izan ohi dira, azpiko ereduak baino zarata harrapatzen baitute.

  • Bistaratzeak: entrenamendu- eta baliozkotze-multzoetan errendimendua erakusten duten ikasketa-kurbak bezalako grafikoek gehiegizko egokitzapena ager dezakete entrenamendu-errendimendua hobetzen jarraitzen badu, baliozkotze-errendimendua lautada edo behera egiten duen bitartean.

Prebentzioa eta gehiegizko egokitzapena arintzeko teknikak

  • Balidazio gurutzatua: K-fold baliozkotze gurutzatua bezalako teknikek ereduaren errendimendua ebaluatzen lagun dezakete datuen azpimultzo desberdinetan, ondo orokortzen dela ziurtatuz.

  • Tren-Balioztatze-Proba zatitzea: datuak entrenatzeko, baliozkotzeko eta probak egiteko multzo ezberdinetan banatzeak eredua ikusten ez diren datuekin ebaluatzen dela ziurtatzen du.

  • Ezaugarrien hautaketa: Erabili ezaugarri garrantzitsuenak soilik eredua entrenatzeko, informazio gutxiagoko atributuetako zarata saihestuz.

  • Erregularizazioa: L1 edo L2 erregularizazioa bezalako teknikek zigor-terminoak gehitzen dizkiote ereduaren galera-funtzioari, eredu konplexuegiak gaitzetsiz.

  • Gelditze goiztiarra: kontrolatu ereduaren errendimendua baliozkotze-multzo batean eta gelditu entrenamendua errendimendua hondatzen hasten denean, prestakuntza-datuen gehiegizko optimizazioa saihestuz.

  • Ensemble metodoak: poltsak egitea, bultzatzea edo pilatzea bezalako teknikak erabiltzeak gehiegizko egokitzapena murrizten lagun dezake, hainbat modeloren iragarpenak konbinatuz.

  • Datuen gehikuntza: eredu jakin batzuetarako, lehendik dauden datuei eraldaketak edo perturbazioak aplikatuz prestakuntza-datu gehigarriak sortzeak gehiegizko egokitzea saihesten lagun dezake.

Ereduaren konplexutasuna, datu-multzoaren tamaina eta erregularizazio-teknikak orekatzea funtsezkoa da gehiegizko egokitzea saihesteko, eredua ondo orokortzen dela ikusten ez diren datu berrietara.