Enkle og skalerbare strategier til løbende at fortræne store sprogmodeller

Senest opdateret November 19, 2024 2 minutters læsning

marts 2024

Dette papir udforsker effektive metoder til opdatering af store sprogmodeller (LLM’er) med nye data uden behov for genoptræning fra bunden, idet der lægges vægt på strategier til at mindske glemsel og dårlig tilpasning, som er almindelige udfordringer på dette område.

Introduktion

Introduktionen fremhæver betydningen af LLM’er i forskellige AI-applikationer og udfordringerne forbundet med at opdatere disse modeller med nye data, især beregningsomkostningerne og ydeevneforringelse som følge af distributionsskift i de nye data .

Vigtigste resultater og takeaways

Avisens vigtigste bidrag omfatter at demonstrere, at en kombination af genopvarmning af indlæringshastighed, forfald af indlæringshastighed og genafspilning af tidligere data kan opnå en præstation, der kan sammenlignes med træning fra bunden af. kombinerede datasæt. Denne tilgang reducerer beregningsomkostningerne betydeligt, samtidig med at modellen bibeholdes eller endda forbedres på tværs af forskellige datadistributionsskift.

Baggrund og metode

Indlæringshastighedsplaner

Undersøgelsen undersøger virkningen af at justere læringshastighedsplanen, især med fokus på fordelene ved at genopvarme (øge) og derefter re-nedsætte (reducere) læringshastigheden, når nye data introduceres til træningsprocessen.

Replay Mechanism

Begrebet “compute-equivalent replay” introduceres som en metode til at inkorporere tidligere data i træningsprocessen for nye data, hvilket sikrer, at de beregningsmæssige omkostninger forbliver konstante ved at justere mængden af nye data, der behandles.

Eksperimentel opsætning

Artiklen beskriver de anvendte datasæt, de eksperimentelle indstillinger designet til at teste de foreslåede løbende fortræningsstrategier og opsætningen til evaluering af modellens ydeevne. Disse inkluderer en blanding af “svage” og “stærke” distributionsskift for at simulere forskellige virkelige scenarier for dataudvikling.

Resultater

Indlæringshastighedsplanjusteringer

Eksperimenterne demonstrerer nødvendigheden af genopvarmning og forfald af læringshastigheden for at tilpasse sig nye data effektivt, med resultater, der tyder på, at denne strategi hjælper med at balancere tilpasning til nye data og tilbageholdelse af tidligere lært information.

Replayens rolle

Undersøgelsen viser, at genafspilning af en brøkdel af de gamle data betydeligt kan afbøde virkningerne af at glemme, hvilket giver modellen mulighed for at bevare sin ydeevne på tidligere opgaver, mens den stadig lærer af nye data.

Modelydelse på tværs af skalaer

Resultaterne indikerer, at de foreslåede strategier er effektive på tværs af forskellige modelstørrelser og datafordelingsskift, hvilket giver en skalerbar løsning på problemet med løbende fortræning af LLM’er.

Bliv klar til karrieren med Code Labs Academys Online Bootcamps, der tilbyder omfattende interviewcoaching og jobassistance for at hjælpe dig med at få succes inden for teknologi.