Batch Normalization je technika používaná v hlbokých neurónových sieťach na zlepšenie rýchlosti trénovania, stability a konvergencie. Jeho primárnym účelom je riešiť problém interného posunu kovariát, ktorý sa týka zmeny v distribúcii vstupov každej vrstvy počas tréningu v dôsledku zmien parametrov predchádzajúcej vrstvy. Tento posun môže spomaliť tréningový proces a urobiť pre každú vrstvu náročnejšie efektívne sa učiť.
Ako funguje dávková normalizácia
-
Normalizácia v rámci mini-dávok: Počas tréningu normalizácia dávky normalizuje vstup každej vrstvy odčítaním priemeru mini-dávok a delením štandardnou odchýlkou mini-dávky. Pomáha to znížiť vnútorný posun kovariát, čím sa sieť stáva stabilnejšou a umožňuje rýchlejšie školenie.
-
Učiteľné parametre: Dávková normalizácia zavádza dva naučiteľné parametre na aktiváciu, zvyčajne označované ako škála a posun parametre. Tieto parametre umožňujú modelu prispôsobiť sa a naučiť sa optimálnu mierku a posun pre vstupy každej vrstvy.
-
Normalizácia naprieč funkciami: Okrem normalizácie v rámci mini-šarže normalizácia tiež normalizuje naprieč funkciami pre každú vzorku v rámci šarže. Táto normalizácia sa vykonáva nezávisle pre každý rozmer prvku.
Vplyv na školenie
-
Rýchlejšia konvergencia: Dávková normalizácia často vedie k rýchlejšej konvergencii počas tréningu tým, že umožňuje použitie vyšších rýchlostí učenia bez rizika divergencie.
-
Redukcia nadmerného vybavenia: Pôsobí ako forma regularizácie, ktorá znižuje závislosť na vypadávaní alebo iných technikách regularizácie, čím do určitej miery pomáha predchádzať nadmernému vybavovaniu.
-
Stabilita a gradientový tok: Stabilizuje tréningový proces znížením pravdepodobnosti miznutia alebo explodovania gradientov, čím umožňuje robustnejší gradientový tok cez sieť.
Nevýhody a obmedzenia
-
Závislosť od veľkosti dávky: Účinnosť normalizácie dávky môže byť ovplyvnená veľkosťou dávky použitej počas tréningu. Veľmi malé veľkosti dávok môžu viesť k nepresným odhadom štatistík mini-dávok, čo môže ovplyvniť jej výkon.
-
Ťažkosti pri aplikácii na niektoré architektúry: Dávková normalizácia nemusí fungovať optimálne s rekurentnými neurónovými sieťami (RNN) kvôli sekvenčnej povahe ich výpočtu.
-
Vplyv na inferenciu: Počas inferencie sa musí priemer a štandardná odchýlka použité na normalizáciu odhadnúť z celého súboru údajov o tréningu alebo z priebežných štatistík, čo by mohlo spôsobiť určité nezrovnalosti, najmä v prípadoch, keď sa distribúcia inferenčných údajov výrazne líši od tréningové údaje.
Zatiaľ čo dávková normalizácia je výkonná technika a bežne sa používa v mnohých architektúrach hlbokého učenia, jej účinnosť sa môže líšiť v závislosti od architektúry siete, distribúcie údajov a konkrétnych prípadov použitia. V niektorých scenároch môžu byť preferované alternatívy ako normalizácia vrstiev alebo normalizácia inštancií.