Katastrofal glemsel i maskinlæring

Oppdatert på November 15, 2024 3 minutter lest

Catastrophic Forgetting, også kjent som Catastrophic Interference, er et fenomen som oppstår når et nevralt nettverk eller maskinlæringsmodell “glemmer”, eller dramatisk reduserer ytelsen på tidligere lærte oppgaver etter å ha lært en ny oppgave. Dette kan oppstå når du trener en modell på en strøm av oppgaver, i stedet for å trene den på alle oppgaver samtidig.

Det er noen forskjellige måter katastrofal glemsel kan oppstå på. En måte er gjennom prosessen med “overfitting” 1, hvor modellen er så fokusert på å tilpasse treningsdataene for den nye oppgaven at den glemmer informasjonen fra de tidligere oppgavene. En annen måte er gjennom prosessen med «interferens», hvor den nye oppgaven er relatert til de tidligere oppgavene på en eller annen måte, og modellens læring om den nye oppgaven «forstyrrer» dens kunnskap om de tidligere oppgavene. En vanlig måte som Catastrophic Forgetting oppstår på er når man trener en modell ved å bruke tilnærmingen “Online Learning” 2, der modellen kontinuerlig oppdateres med nye eksempler når de kommer inn, i stedet for å bli trent på et fast sett med eksempler på en gang. I dette scenariet kan modellen presenteres med nye eksempler som er vesentlig forskjellige fra eksemplene den tidligere ble trent på, og dette kan føre til at den “glemmer” eller vesentlig forringer ytelsen på forrige oppgave.

Det er flere måter å redusere katastrofal glemsel på:

– En tilnærming er å bruke teknikker som «Weight Regularization» 3, som kan bidra til å forhindre modellen fra å drastisk endre vektverdiene og miste kunnskapen den har fått fra tidligere oppgaver.

– «Elastic Weight Consolidation» 4, som innebærer å legge til en liten mengde støy til vektene til nettverket under trening, kan også bidra til å forhindre katastrofal glemsel. Denne støyen bidrar til å “stabilisere” vektene, noe som gjør det mindre sannsynlig at modellen glemmer kunnskapen om tidligere oppgaver.

– En annen tilnærming er å bruke metoder som «Rehearsal» 5, der modellen kontinuerlig presenteres med eksempler fra tidligere lærte oppgaver for å hjelpe den med å beholde denne kunnskapen.

– En annen populær metode for å adressere Catastrophic Forgetting er å bruke «Transfer Learning» 6, der en modell trent på én oppgave er finjustert på en relatert oppgave. For eksempel kan en modell som er opplært til å gjenkjenne bilder av hunder være finjustert til å gjenkjenne bilder av katter. I dette tilfellet har modellen allerede lært mange funksjoner som er nyttige for å gjenkjenne bilder av dyr generelt, så den kan bruke denne kunnskapen til raskt å lære å gjenkjenne bilder av katter.

“Ensemble Methods” 7, der flere modeller er opplært til å løse forskjellige oppgaver, og deres resultater kombineres for å lage en endelig prediksjon, er også nyttige i forhindre katastrofal glemsel. For eksempel kan en ensemblemodell bestå av en modell som er opplært til å gjenkjenne bilder av hunder, en annen modell som er opplært til å gjenkjenne bilder av katter, og så videre. Når den presenteres med et nytt eksempel, kan ensemblemodellen bruke utdataene fra hver av dens konstituerende modeller for å lage en mer informert prediksjon.

Catastrophic forgetting er en viktig faktor når du trener maskinlæringsmodeller, spesielt når disse modellene blir trent til å lære flere oppgaver over tid. Ved å bruke teknikker som vektregulering, elastisk vektkonsolidering, repetisjon, overføringslæring og ensemblemetoder, er det mulig å dempe effektene av katastrofal glemsel og forbedre ytelsen til maskinlæringsmodeller.

Gjør komplekse data til praktisk innsikt – bli med i Code Labs Academys Data Science & AI Bootcamp for å få tilgang til det fulle potensialet til maskinlæring og kunstig intelligens.

[1] The Overfitting Iceberg (2020)

[2] Online Methods in Machine Learning – Theory and Applications (Konsultert i januar 2023)

[3] Regularization Techniques in Deep Learning (2019)

[4] Overcoming Catastrophic Forgetting in Neural Networks (2017)

[5] Catastrophic Forgetting, Repetition, and Pseudorehearsal (1995)

[6] A Survey of Transfer Learning (2016)

[7] Ensemble Learning - Wikipedia (Konsultert i januar 2023)