Paprastos ir keičiamo dydžio strategijos, skirtos nuolatiniam didelių kalbų modelių mokymui

Paprastos ir keičiamo dydžio strategijos, skirtos nuolatiniam didelių kalbų modelių mokymui

Arxiv Link

2024 m. kovo 13 d

Šiame darbe nagrinėjami veiksmingi metodai, kaip atnaujinti didelius kalbos modelius (LLM) naudojant naujus duomenis, nereikalaujant permokyti nuo nulio, pabrėžiant užmiršimo mažinimo ir prasto prisitaikymo strategijas, kurios yra dažnos. iššūkius šioje srityje.

Įvadas

Įvade pabrėžiama LLM reikšmė įvairiose AI programose ir iššūkiai, susiję su šių modelių atnaujinimu naujais duomenimis, ypač skaičiavimo sąnaudos ir našumo pablogėjimas dėl naujų duomenų pasiskirstymo. .

Pagrindiniai atradimai ir ištraukos

Pagrindinis šio straipsnio indėlis yra tai, kad buvo parodyta, kad mokymosi dažnio pašildymo, mokymosi greičio mažėjimo ir ankstesnių duomenų pakartojimo derinys gali pasiekti našumą, panašų į mokymą nuo nulio. kombinuoti duomenų rinkiniai. Šis metodas žymiai sumažina skaičiavimo išlaidas, kartu išlaikant ar net pagerinant modelio našumą įvairiuose duomenų paskirstymo pamainose.

Pagrindas ir metodika

Mokymosi tempų tvarkaraščiai

Tyrimas tiria mokymosi greičio grafiko koregavimo poveikį, ypač sutelkiant dėmesį į pakartotinio pašildymo (padidinimo) ir vėl sumažinimo (sumažinimo) naudą, kai į mokymo procesą įtraukiami nauji duomenys.

Pakartojimo mechanizmas

„Skaičiavimo ekvivalento atkūrimo“ sąvoka įvedama kaip metodas įtraukti ankstesnius duomenis į naujų duomenų mokymo procesą, užtikrinant, kad skaičiavimo sąnaudos išliktų pastovios, koreguojant apdorojamų naujų duomenų kiekį.

Eksperimentinė sąranka

Straipsnyje išsamiai aprašomi naudojami duomenų rinkiniai, eksperimentiniai nustatymai, skirti išbandyti siūlomoms nuolatinėms išankstinio mokymo strategijoms, ir modelio veikimo įvertinimo sąranka. Tai apima „silpnų“ ir „stiprių“ paskirstymo poslinkių mišinį, kad būtų galima imituoti skirtingus realaus pasaulio duomenų evoliucijos scenarijus.

Rezultatai

Mokymosi tempo grafiko koregavimas

Eksperimentai rodo, kad norint efektyviai prisitaikyti prie naujų duomenų, būtina atnaujinti mokymosi greitį ir vėl sumažėti, o išvados rodo, kad ši strategija padeda suderinti prisitaikymą prie naujų duomenų ir anksčiau išmoktos informacijos išsaugojimą.

Pakartojimo vaidmuo

Tyrimas rodo, kad dalies senų duomenų atkūrimas gali žymiai sušvelninti pamiršimo padarinius, o tai leidžia modeliui išlaikyti ankstesnių užduočių našumą ir mokytis iš naujų duomenų.

Modelio našumas visose skalėse

Rezultatai rodo, kad siūlomos strategijos yra veiksmingos įvairiems modelių dydžiams ir duomenų paskirstymo poslinkiams, o tai suteikia nuolatinio išankstinio LLM mokymo problemos sprendimą.

Code Labs Academy © 2024 Visos teisės saugomos.