13 mars 2024
Detta dokument utforskar effektiva metoder för att uppdatera stora språkmodeller (LLM) med nya data utan att behöva träna om från grunden, med betoning på strategier för att mildra glömska och dålig anpassning, vilket är vanliga utmaningar inom detta område.
Inledning
Introduktionen belyser betydelsen av LLM i olika AI-applikationer och de utmaningar som är förknippade med att uppdatera dessa modeller med nya data, särskilt beräkningskostnader och prestandaförsämring på grund av distributionsskift i de nya uppgifterna.
Huvudsakliga resultat och slutsatser
Uppsatsens huvudsakliga bidrag inkluderar att visa att en kombination av uppvärmning av inlärningshastighet, återfall av inlärningshastighet och uppspelning av tidigare data kan uppnå prestanda som är jämförbara med träning från grunden på kombinerade datamängder. Detta tillvägagångssätt minskar beräkningskostnaderna avsevärt, samtidigt som modellprestanda bibehålls eller till och med förbättras över olika datadistributionsskift.
Bakgrund & Metodik
Scheman för inlärningshastighet
Studien undersöker effekterna av att justera schemat för inlärningshastigheten, med särskilt fokus på fördelarna med att återvärma (öka) och sedan återförminska (minska) inlärningshastigheten när nya data introduceras i träningsprocessen.
Mekanism för återuppspelning
Begreppet "compute-equivalent replay" introduceras som en metod för att införliva tidigare data i träningsprocessen för nya data, vilket säkerställer att beräkningskostnaden förblir konstant genom att justera mängden nya data som bearbetas.
Experimentell uppställning
I uppsatsen beskrivs de dataset som använts, de experimentella inställningar som utformats för att testa de föreslagna kontinuerliga förträningsstrategierna och inställningen för utvärdering av modellprestanda. Dessa inkluderar en blandning av "svaga" och "starka" distributionsskift för att simulera olika verkliga scenarier för datautveckling.
Resultat
Justeringar av utbildningstaxan
Experimenten visar att det är nödvändigt att återvärma och minska inlärningshastigheten för att effektivt kunna anpassa sig till nya data, och resultaten tyder på att denna strategi hjälper till att balansera anpassningen till nya data och bibehållandet av tidigare inlärd information.
Uppspelningens roll
The study shows that replaying a fraction of the old data can significantly mitigate the effects of forgetting, allowing the model to retain its performance on previous tasks while still learning from new data.
Modellprestanda över skalor
Resultaten indikerar att de föreslagna strategierna är effektiva över olika modellstorlekar och datadistributionsskiften, vilket ger en skalbar lösning på problemet med kontinuerlig förträning av LLM.