Пераабсталяванне і недастатковае абсталяванне з'яўляюцца агульнымі праблемамі ў мадэлях машыннага навучання, якія ўплываюць на іх здольнасць добра абагульняць новыя, нябачныя даныя.
Пераабсталяванне адбываецца, калі мадэль вывучае не толькі асноўныя заканамернасці ў навучальных даных, але таксама пазнае шум і выпадковыя ваганні, прысутныя ў гэтых дадзеных. У выніку мадэль надзвычай добра працуе з навучальнымі дадзенымі, але не можа абагульніць новыя, нябачныя даныя, таму што яна па сутнасці запомніла навучальны набор.
Недастатковасць, з іншага боку, здараецца, калі мадэль занадта простая, каб захапіць асноўныя заканамернасці ў навучальных дадзеных. Ён дрэнна працуе не толькі з навучальнымі дадзенымі, але і з новымі дадзенымі, таму што не можа даведацца ўзаемасувязі і складанасці, прысутныя ў дадзеных.
Як прадухіліць празмернае і недастатковае абсталяванне
-
Крос-праверка: выкарыстоўвайце такія метады, як k-кратная перакрыжаваная праверка, каб ацаніць прадукцыйнасць мадэлі на розных падмноствах даных. Гэта дапамагае ацаніць, наколькі добра мадэль будзе абагульняцца для новых даных.
-
Падзел трэніровак: падзяліце свае даныя на асобныя наборы для навучання і тэсціравання. Навучыце мадэль на навучальным наборы і ацаніце яго прадукцыйнасць на тэставым наборы. Гэта дапамагае ацаніць, наколькі добра мадэль абагульняе нябачныя даныя.
-
Выбар/скарачэнне функцый: паменшыце складанасць мадэлі, выбіраючы толькі найбольш важныя функцыі або выкарыстоўваючы такія метады, як аналіз галоўных кампанентаў (PCA), каб паменшыць памернасць даных.
-
Рэгулярызацыя: такія метады, як рэгулярізацыя L1 або L2, дадаюць штрафы за складанасць мэтавай функцыі мадэлі, не даючы ёй занадта дакладна адпавядаць шуму ў дадзеных.
-
Метады ансамбля: аб'яднайце некалькі мадэляў, каб паменшыць колькасць занадта і недастаткова. Такія метады, як пакетаванне, узмацненне або стэкаванне, выкарыстоўваюць некалькі мадэляў для паляпшэння агульнай прадукцыйнасці і абагульнення.
-
Настройка гіперпараметраў: Адрэгулюйце гіперпараметры мадэлі (напрыклад, хуткасць навучання, глыбіню дрэў у дрэвах рашэнняў і г.д.), выкарыстоўваючы такія метады, як пошук у сетцы або выпадковы пошук, каб знайсці аптымальную канфігурацыю, якая ўраўнаважвае зрушэнне і дысперсія.
-
Датэрміновае спыненне: Кантралюйце прадукцыйнасць мадэлі на наборы праверкі падчас трэніроўкі і спыняйце працэс трэніроўкі, калі прадукцыйнасць пачынае пагаршацца, прадухіляючы тым самым пераабсталяванне.
-
Больш даных: павелічэнне аб'ёму даных можа дапамагчы лепш абагульняць мадэль, забяспечваючы больш разнастайную і рэпрэзентатыўную выбарку асноўнага размеркавання.
Знаходжанне правільнага балансу паміж складанасцю мадэлі і абагульненнем мае вырашальнае значэнне для прадухілення празмернага і недастатковага абсталявання, і гэтыя метады дапамагаюць у дасягненні гэтага балансу.