Пакетная нармалізацыя - гэта метад, які выкарыстоўваецца ў глыбокіх нейронавых сетках для паляпшэння хуткасці навучання, стабільнасці і канвергенцыі. Яго асноўная мэта - вырашыць праблему ўнутранага зруху каварыят, які адносіцца да змен у размеркаванні ўваходных дадзеных кожнага ўзроўню падчас навучання з-за змяненняў у параметрах папярэдняга ўзроўню. Гэты зрух можа запаволіць навучальны працэс і зрабіць больш складаным для кожнага ўзроўню эфектыўнае навучанне.
Як працуе пакетная нармалізацыя
-
Нармалізацыя ў міні-серыях: падчас навучання пакетная нармалізацыя нармалізуе ўваход кожнага пласта шляхам аднімання сярэдняга міні-серыі і дзялення на стандартнае адхіленне міні-серыі. Гэта дапамагае паменшыць унутраны зрух каварыят, робячы сетку больш стабільнай і забяспечваючы больш хуткае навучанне.
-
Вывучальныя параметры: Пакетная нармалізацыя ўводзіць два вывучаемыя параметры за адну актывацыю, якія звычайна называюцца параметрамі маштаб і зрух. Гэтыя параметры дазваляюць мадэлі адаптавацца і вывучыць аптымальны маштаб і зрух для ўваходных дадзеных кожнага ўзроўню.
-
Нармалізацыя па функцыях: у дадатак да нармалізацыі па памернасці міні-серыі, нармалізацыя партыі таксама нармалізуе па функцыях для кожнага ўзору ў партыі. Гэтая нармалізацыя выконваецца незалежна для кожнага вымярэння функцыі.
Уплыў на навучанне
-
Больш хуткая канвергенцыя: Пакетная нармалізацыя часта прыводзіць да больш хуткай канвергенцыі падчас навучання, дазваляючы выкарыстоўваць больш высокія хуткасці навучання без рызыкі разыходжанняў.
-
Памяншэнне пераабсталявання: гэта дзейнічае як форма рэгулярызацыі, памяншаючы залежнасць ад адсеву або іншых метадаў рэгулярызацыі, тым самым дапамагаючы ў некаторай ступені прадухіліць пераабсталяванне.
-
Стабільнасць і градыентны паток: ён стабілізуе працэс трэніровак, памяншаючы верагоднасць знікнення або выбуху градыентаў, забяспечваючы больш надзейны градыентны паток праз сетку.
Недахопы і абмежаванні
-
Залежнасць ад памеру партыі: на эфектыўнасць нармалізацыі партыі можа ўплываць памер партыі, які выкарыстоўваецца падчас навучання. Вельмі малыя памеры партыі могуць прывесці да недакладных ацэнак статыстыкі міні-партыі, што паўплывае на яе прадукцыйнасць.
-
Цяжкасці прымянення да некаторых архітэктур: Пакетная нармалізацыя можа не працаваць аптымальна з перыядычнымі нейронавымі сеткамі (RNN) з-за паслядоўнага характару іх вылічэнняў.
-
Уплыў на выснову: падчас вываду сярэдняе значэнне і стандартнае адхіленне, якія выкарыстоўваюцца для нармалізацыі, павінны быць ацэненыя з усяго набору навучальных даных або з бягучай статыстыкі, што можа ўнесці некаторыя разыходжанні, асабліва ў тых выпадках, калі размеркаванне вывадных даных значна адрозніваецца ад дадзеныя навучання.
Хаця пакетная нармалізацыя з'яўляецца магутным метадам і звычайна выкарыстоўваецца ў многіх архітэктурах глыбокага навучання, яе эфектыўнасць можа вар'іравацца ў залежнасці ад архітэктуры сеткі, размеркавання даных і канкрэтных выпадкаў выкарыстання. У некаторых выпадках перавагай могуць быць такія альтэрнатывы, як нармалізацыя ўзроўню або нармалізацыя асобніка.