Перабор адбываецца, калі мадэль вывучае не толькі асноўныя заканамернасці ў навучальных даных, але таксама шум і выпадковасць, якія прысутнічаюць у гэтым канкрэтным наборы даных. У выніку атрымліваецца мадэль, якая вельмі добра працуе на навучальных дадзеных, але не можа абагульніць новыя, нябачаныя даныя.
Ідэнтыфікацыя
-
Высокая дакладнасць навучання, нізкая дакладнасць тэсту: адзін з асноўных паказчыкаў - калі мадэль працуе выключна добра на навучальных даных, але дрэнна на тэставыя або праверачныя дадзеныя.
-
Складанасць мадэлі: мадэлі Overfit, як правіла, празмерна складаныя, улоўліваючы шум, а не асноўныя ўзоры.
-
Візуалізацыі: такія графікі, як крывыя навучання, якія паказваюць прадукцыйнасць набораў для навучання і праверкі, могуць выявіць пераабсталяванне, калі прадукцыйнасць навучання працягвае паляпшацца, а прадукцыйнасць праверкі знаходзіцца на плато або зніжаецца.
Прафілактыка і метады памяншэння пераабсталявання
-
Крос-праверка: такія метады, як k-кратная перакрыжаваная праверка, могуць дапамагчы ацаніць прадукцыйнасць мадэлі на розных падмноствах даных, забяспечваючы іх добрае абагульненне.
-
Навучанне-Валідацыя-Тэставанне Раздзяленне: раздзяленне даных на асобныя наборы для навучання, праверкі і тэсціравання забяспечвае ацэнку мадэлі на нябачных дадзеных.
-
Выбар функцый: выкарыстоўвайце толькі найбольш прыдатныя функцыі для навучання мадэлі, пазбягаючы шуму ад менш інфарматыўных атрыбутаў.
-
Рэгулярызацыя: такія метады, як рэгулярізацыя L1 або L2, дадаюць штрафныя тэрміны да функцыі страты мадэлі, што перашкаджае занадта складаным мадэлям.
-
Датэрміновае спыненне: Кантралюйце прадукцыйнасць мадэлі на наборы праверкі і спыняйце навучанне, калі прадукцыйнасць пачынае пагаршацца, прадухіляючы празмерную аптымізацыю даных навучання.
-
Аналізаваныя метады: выкарыстанне такіх метадаў, як пакетаванне, узмацненне або нагрувашчванне, можа дапамагчы паменшыць празмернае абсталяванне шляхам аб'яднання прагнозаў некалькіх мадэляў.
-
Павелічэнне даных: для пэўных тыпаў мадэляў стварэнне дадатковых навучальных даных шляхам прымянення пераўтварэнняў або абурэнняў да існуючых даных можа дапамагчы прадухіліць празмернае абсталяванне.
Збалансаванне складанасці мадэлі, памеру набору даных і метадаў рэгулярызацыі мае вырашальнае значэнне для прадухілення перападбору, адначасова гарантуючы, што мадэль добра абагульняецца для новых, нябачных даных.