Batch Normalization je technika používaná v hlubokých neuronových sítích ke zlepšení rychlosti tréninku, stability a konvergence. Jeho primárním účelem je řešit problém vnitřního posunu kovariát, který se týká změny v distribuci vstupů každé vrstvy během tréninku kvůli změnám parametrů předchozí vrstvy. Tento posun může zpomalit tréninkový proces a udělat pro každou vrstvu náročnější učení.
Jak funguje dávková normalizace
-
Normalizace v rámci mini-dávek: Během školení normalizuje dávková normalizace vstup každé vrstvy odečtením mini-dávkového průměru a dělením mini-dávkovou standardní odchylkou. To pomáhá snížit vnitřní posun kovariát, čímž se síť stává stabilnější a umožňuje rychlejší trénink.
-
Učitelné parametry: Dávková normalizace zavádí dva naučitelné parametry na aktivaci, obvykle označované jako škála a posun parametry. Tyto parametry umožňují modelu přizpůsobit se a naučit se optimální měřítko a posun pro vstupy každé vrstvy.
-
Normalizace napříč funkcemi: Kromě normalizace napříč dimenzí mini-dávky se dávková normalizace také normalizuje napříč funkcemi pro každý vzorek v dávce. Tato normalizace se provádí nezávisle pro každý rozměr prvku.
Dopad na školení
-
Faster Convergence: Dávková normalizace často vede k rychlejší konvergenci během tréninku tím, že umožňuje použití vyšších rychlostí učení bez rizika divergence.
-
Snížení nadměrného vybavování: Působí jako forma regularizace, snižuje závislost na výpadcích nebo jiných technikách regularizace, čímž do určité míry pomáhá předcházet nadměrnému vybavování.
-
Stabilita a gradientní tok: Stabilizuje tréninkový proces tím, že snižuje pravděpodobnost mizení nebo explodování gradientů, což umožňuje robustnější tok gradientu sítí.
Nevýhody a omezení
-
Závislost na velikosti dávky: Účinnost normalizace dávky může být ovlivněna velikostí dávky použité během školení. Velmi malé velikosti dávek mohou vést k nepřesným odhadům statistik minidávek, což ovlivňuje její výkon.
-
Potíže s aplikací na některé architektury: Dávková normalizace nemusí fungovat optimálně s rekurentními neuronovými sítěmi (RNN) kvůli sekvenční povaze jejich výpočtu.
-
Dopad na inferenci: Během inference musí být průměr a směrodatná odchylka použité pro normalizaci odhadnuty z celého tréninkového souboru dat nebo z průběžných statistik, což by mohlo způsobit určité nesrovnalosti, zejména v případech, kdy se rozložení inferenčních dat výrazně liší od tréninková data.
Zatímco dávková normalizace je výkonná technika a běžně se používá v mnoha architekturách hlubokého učení, její účinnost se může lišit v závislosti na architektuře sítě, distribuci dat a konkrétních případech použití. V některých scénářích mohou být preferovány alternativy jako normalizace vrstev nebo normalizace instance.