Katastrofaalinen unohtaminen koneoppimisessa

Päivitetty September 03, 2024 3 minuutteja luetaan

Katastrofinen unohtaminen, joka tunnetaan myös nimellä Katastrofinen häiriö, on ilmiö, joka ilmenee, kun hermoverkko tai koneoppimismalli “unohtaa” tai heikentää dramaattisesti suorituskykyään aiemmin opituissa tehtävissä uuden tehtävän oppimisen jälkeen. Tämä voi tapahtua, kun harjoitellaan mallia tehtävien joukossa sen sijaan, että harjoitettaisiin sitä kaikissa tehtävissä kerralla.

On olemassa muutamia eri tapoja, joilla katastrofaalinen unohtaminen voi tapahtua. Yksi tapa on “yliasovitus” 1, jossa malli on niin keskittynyt harjoitustietojen sovittamiseen uusi tehtävä, että se unohtaa aiempien tehtävien tiedot. Toinen tapa on “häiriöprosessi”, jossa uusi tehtävä liittyy jollain tavalla aikaisempiin tehtäviin ja mallin oppiminen uudesta tehtävästä “häiritsee” sen tietämystä aiemmista tehtävistä. Yksi yleinen tapa, jolla katastrofaalinen unohtaminen tapahtuu, on mallin kouluttaminen “Online Learning” 2 -lähestymistavalla, jossa mallia päivitetään jatkuvasti uusilla esimerkeillä. heti kun he tulevat, sen sijaan, että heitä koulutettaisiin kiinteiden esimerkkien perusteella kerralla. Tässä skenaariossa mallille voidaan esittää uusia esimerkkejä, jotka eroavat merkittävästi esimerkeistä, joihin se on aiemmin koulutettu, ja tämä voi saada sen “unohtumaan” tai heikentää merkittävästi sen suorituskykyä edellisessä tehtävässä.

On olemassa useita tapoja lieventää katastrofaalista unohtamista:

Yksi lähestymistapa on käyttää tekniikoita, kuten “painon laillistaminen” 3, jotka voivat auttaa estämään mallin muuttamasta rajusti painoarvojaan ja menettämästä aiemmista tehtävistä saamaansa tietoa.
“Elastic Weight Consolidation” 4, joka sisältää pienen määrän kohinaa verkoston painoihin harjoituksen aikana, voi myös auttaa estämään katastrofaalista unohtamista. Tämä melu auttaa “vakauttamaan” painot, mikä vähentää todennäköisyyttä, että malli unohtaa tietonsa aiemmista tehtävistä.
Toinen lähestymistapa on käyttää menetelmiä, kuten “Rehearsal” 5, jossa mallille esitetään jatkuvasti esimerkkejä aiemmin opituista tehtävistä tiedon säilyttämiseksi.
Toinen suosittu tapa käsitellä katastrofaalista unohtamista on käyttää “Transfer Learning” 6, jossa malli yhteen tehtävään koulutettu on hienosäädetty liittyvään tehtävään. Esimerkiksi malli, joka on koulutettu tunnistamaan koirien kuvia, voidaan hienosäätää tunnistamaan kissojen kuvat. Tässä tapauksessa malli on jo oppinut monia ominaisuuksia, jotka ovat hyödyllisiä eläinten kuvien tunnistamisessa yleensä, joten se voi käyttää tätä tietoa oppiakseen nopeasti tunnistamaan kissojen kuvia.
“Ensemble Methods” 7, jossa useita malleja opetetaan ratkaisemaan erilaisia tehtäviä ja joiden tulokset yhdistetään lopullisen ennusteen tekemiseksi, ovat myös hyödyllisiä katastrofaalisen unohtamisen estäminen. Esimerkiksi kokonaisuusmalli voi koostua yhdestä mallista, joka on koulutettu tunnistamaan kuvia koirista, toisesta mallista, joka on koulutettu tunnistamaan kuvia kissoista ja niin edelleen. Kun ensemble-malli esitetään uudella esimerkillä, se voi käyttää kunkin osamallinsa tulostetta tietoisemman ennusteen tekemiseen.

Katastrofaalinen unohtaminen on tärkeä näkökohta koneoppimismalleja opetettaessa, varsinkin kun näitä malleja opetetaan oppimaan useita tehtäviä ajan mittaan. Käyttämällä tekniikoita, kuten painon säätelyä, elastista painon vahvistamista, harjoittelua, siirtooppimista ja kokonaisuusmenetelmiä, on mahdollista lieventää katastrofaalisen unohtamisen vaikutuksia ja parantaa koneoppimismallien suorituskykyä.

[1] The Overfitting Iceberg (2020)

[2] Online Methods in Machine Learning - Theory and Applications (Keskusteltu tammikuussa 2023)

[3] Regularization Techniques in Deep Learning (2019)

[4] Overcoming Catastrophic Forgetting in Neural Networks (2017)

[5] Katastrofaalinen unohtaminen, harjoitus ja pseudorehearsal (1995)

[6] A Survey of Transfer Learning (2016)

[7] Ensemble Learning - Wikipedia (Keskusteltu tammikuussa 2023)