L'oblit catastròfic, també conegut com a interferència catastròfica, és un fenomen que es produeix quan una xarxa neuronal o un model d'aprenentatge automàtic "oblida" o redueix dràsticament el seu rendiment en tasques apreses prèviament després d'aprendre una tasca nova. Això pot passar quan s'entrena un model en un flux de tasques, en lloc d'entrenar-lo en totes les tasques alhora.
Hi ha algunes maneres diferents en què es pot produir un oblit catastròfic. Una manera és a través del procés de "sobreajust" 1, on el model està tan centrat a ajustar les dades d'entrenament per la nova tasca que oblida la informació de les tasques anteriors. Una altra manera és mitjançant el procés d'"interferència", on la nova tasca es relaciona d'alguna manera amb les tasques anteriors, i l'aprenentatge del model sobre la nova tasca "interfereix" amb el seu coneixement sobre les tasques anteriors. Una manera habitual en què es produeix l'oblit catastròfic és quan s'entrena un model mitjançant l'enfocament "Aprenentatge en línia" 2, en el qual el model s'actualitza contínuament amb nous exemples. a mesura que entren, en lloc de ser entrenats en un conjunt fix d'exemples alhora. En aquest escenari, el model es pot presentar amb nous exemples que siguin significativament diferents dels exemples en què es va entrenar anteriorment, i això pot fer que "oblidi" o degradi significativament el seu rendiment en la tasca anterior.
Hi ha diverses maneres de mitigar l'oblit catastròfic:
-
Un enfocament és utilitzar tècniques com ara "Regularització del pes" 3, que poden ajudar a prevenir el model de canviar dràsticament els seus valors de pes i perdre els coneixements adquirits en tasques prèvies.
-
"La consolidació de pes elàstic" 4, que implica afegir una petita quantitat de soroll als pesos de la xarxa durant l'entrenament, també pot ajudar a prevenir l'oblit catastròfic. Aquest soroll ajuda a "estabilitzar" els pesos, fent menys probable que el model oblidi els seus coneixements sobre tasques prèvies.
-
Un altre enfocament és utilitzar mètodes com ara "Assaig" 5, en què el model es presenta contínuament amb exemples de tasques apreses prèviament per ajudar-lo a retenir aquests coneixements.
-
Un altre mètode popular per abordar l'oblit catastròfic és utilitzar "Transfer Learning" 6, en què un model entrenat en una tasca està afinat en una tasca relacionada. Per exemple, un model que ha estat entrenat per reconèixer imatges de gossos es podria ajustar per reconèixer imatges de gats. En aquest cas, el model ja ha après moltes característiques que són útils per reconèixer imatges d'animals en general, de manera que pot utilitzar aquest coneixement per aprendre ràpidament a reconèixer imatges de gats.
-
Els "Ensemble Methods" 7, en què s'entrenen diversos models per resoldre tasques diferents, i els seus resultats es combinen per fer una predicció final, també són útils en prevenir l'oblit catastròfic. Per exemple, un model de conjunt pot consistir en un model que està entrenat per reconèixer imatges de gossos, un altre model que està entrenat per reconèixer imatges de gats, etc. Quan es presenta un nou exemple, el model de conjunt pot utilitzar la sortida de cadascun dels seus models constitutius per fer una predicció més informada.
L'oblit catastròfic és una consideració important a l'hora d'entrenar models d'aprenentatge automàtic, especialment quan aquests models s'estan entrenant per aprendre diverses tasques al llarg del temps. Mitjançant l'ús de tècniques com ara la regularització de pes, la consolidació de pes elàstic, l'assaig, l'aprenentatge de transferència i els mètodes de conjunt, és possible mitigar els efectes de l'oblit catastròfic i millorar el rendiment dels models d'aprenentatge automàtic.
[1] The Overfitting Iceberg (2020)
[2] Mètodes en línia en aprenentatge automàtic - Teoria i aplicacions (Consultat el gener de 2023)
[3] Tècniques de regularització en aprenentatge profund (2019)
[4] Superant l'oblit catastròfic a les xarxes neuronals (2017)
[5] Oblit catastròfic, assaig i pseudohearsal (1995)
[6] A Survey of Transfer Learning (2016)
[7] Ensemble Learning - Viquipèdia (Consultat el gener de 2023)