Oorpassing vind plaas wanneer 'n model nie net die onderliggende patrone in die opleidingsdata leer nie, maar ook die geraas en willekeurigheid wat in daardie spesifieke datastel voorkom. Dit lei tot 'n model wat baie goed presteer op die opleidingsdata maar nie daarin slaag om te veralgemeen na nuwe, onsigbare data nie.
Identifikasie
-
Hoë opleidingsakkuraatheid, lae toetsakkuraatheid: Een van die primêre aanwysers is wanneer die model buitengewoon goed presteer op die opleidingsdata, maar swak op die toets- of valideringsdata.
-
Modelkompleksiteit: Overfit-modelle is geneig om buitensporig kompleks te wees, en vang geraas eerder as die onderliggende patrone op.
-
Visualiserings: Intriges soos leerkurwes wat prestasie op opleidings- en valideringsstelle toon, kan ooraanpassing openbaar as die opleidingsprestasie aanhou verbeter terwyl die valideringsprestasie plato of afneem.
Voorkoming en tegnieke om ooraanpassing te versag
-
Kruisvalidering: Tegnieke soos k-vou kruisvalidering kan help om die model se prestasie op verskillende substelle van die data te evalueer, om te verseker dat dit goed veralgemeen.
-
Trein-validering-toetsverdeling: Die verdeling van die data in afsonderlike stelle vir opleiding, validering en toetsing verseker dat die model op onsigbare data geassesseer word.
-
Kenmerkkeuring: Gebruik slegs die mees relevante kenmerke om die model op te lei, en vermy geraas van minder insiggewende eienskappe.
-
Regularisering: Tegnieke soos L1- of L2-regularisering voeg strafbepalings by die model se verliesfunksie, wat te komplekse modelle ontmoedig.
-
Vroeë stop: Monitor die model se prestasie op 'n valideringsstel en stop opleiding wanneer prestasie begin verswak, wat voorkom dat dit ooroptimaliseer op die opleidingsdata.
-
Ensemblemetodes: Die gebruik van tegnieke soos sakke, versterking of stapeling kan help om ooraanpassing te verminder deur verskeie modelle se voorspellings te kombineer.
-
Datavergroting: Vir sekere tipes modelle kan die generering van bykomende opleidingsdata deur transformasies of versteurings op die bestaande data toe te pas, help om oorpassing te voorkom.
Die balansering van modelkompleksiteit, datastelgrootte en regulariseringstegnieke is noodsaaklik om oorpassing te voorkom, terwyl verseker word dat die model goed veralgemeen na nuwe, onsigbare data.