Katastrofické zapomínání, známé také jako katastrofické rušení, je jev, ke kterému dochází, když neuronová síť nebo model strojového učení „zapomene“ nebo dramaticky sníží svůj výkon u dříve naučených úkolů poté, co se naučil nový úkol. K tomu může dojít při trénování modelu na proudu úloh, spíše než při trénování na všech úkolech najednou.
Existuje několik různých způsobů, jak může dojít ke katastrofickému zapomenutí. Jedním ze způsobů je proces „overfittingu“ 1, kde je model tak zaměřen na přizpůsobení tréninkových dat pro nový úkol, že zapomene informace z předchozích úkolů. Další způsob je přes proces „interference“, kdy nový úkol nějakým způsobem souvisí s předchozími úkoly a učení modelu o novém úkolu „zasahuje“ do jeho znalostí o předchozích úkolech. Jedním z běžných způsobů, jak ke katastrofickému zapomínání dochází, je trénování modelu pomocí přístupu „Online Learning“ 2, ve kterém je model neustále aktualizován o nové příklady. jak přicházejí, spíše než aby byli trénováni na pevné sadě příkladů najednou. V tomto scénáři lze modelu prezentovat nové příklady, které se výrazně liší od příkladů, na kterých byl dříve trénován, a to může způsobit, že „zapomene“ nebo výrazně sníží svůj výkon na předchozí úkol.
Existuje několik způsobů, jak zmírnit katastrofické zapomínání:
– Jedním z přístupů je použití technik, jako je „regulace hmotnosti“ 3, které mohou pomoci zabránit modelu od drastické změny jeho hmotnostních hodnot a ztrátě znalostí, které získal z předchozích úkolů.
-
"Elastic Weight Consolidation" 4, která zahrnuje přidání malého množství hluku k hmotnosti sítě během tréninku, může také pomoci zabránit katastrofickému zapomínání. Tento hluk pomáhá „stabilizovat“ závaží, takže je méně pravděpodobné, že model zapomene své znalosti o předchozích úkolech.
-
Dalším přístupem je použití metod, jako je „Zkouška“ 5, ve kterém je model průběžně prezentován s příklady z dříve naučených úloh, které mu pomáhají tyto znalosti udržet.
– Další oblíbenou metodou řešení katastrofického zapomínání je použití „učení s přenosem“ 6, ve kterém je model trénovaný na jeden úkol je doladěn na související úkol. Například model, který byl vycvičen k rozpoznávání obrázků psů, může být doladěn tak, aby rozpoznával obrázky koček. V tomto případě se model již naučil mnoho funkcí, které jsou užitečné pro rozpoznávání obrázků zvířat obecně, takže může tyto znalosti využít k rychlému učení se rozpoznávat obrázky koček.
- "Ensemble Methods" 7, ve kterých je několik modelů trénováno k řešení různých úkolů a jejich výstupy jsou kombinovány do konečné predikce, jsou také užitečné při předcházení katastrofickému zapomínání. Například souborový model se může skládat z jednoho modelu, který je trénován k rozpoznávání obrázků psů, jiného modelu, který je trénován k rozpoznávání obrázků koček a tak dále. Když je model souboru prezentován s novým příkladem, může použít výstup každého z jeho modelů k vytvoření informovanější predikce.
Katastrofické zapomínání je důležitým faktorem při trénování modelů strojového učení, zvláště když jsou tyto modely trénovány tak, aby se časem naučily více úkolů. Použitím technik, jako je regulace hmotnosti, elastická konsolidace hmotnosti, zkoušení, přenosové učení a metody souboru, je možné zmírnit dopady katastrofického zapomínání a zlepšit výkon modelů strojového učení.
[1] The Overfitting Iceberg (2020)
[2] Online metody strojového učení – teorie a aplikace (Konzultováno v lednu 2023)
[3] Regularization Techniques in Deep Learning (2019)
[4] Překonávání katastrofického zapomínání v neuronových sítích (2017)
[5] Katastrofické zapomnění, zkouška a pseudohearsal (1995)
[6] A Survey of Transfer Learning (2016)
[7] Ensemble Learning - Wikipedia (Konzultováno v lednu 2023)