- mars 2024
Denne artikkelen utforsker effektive metoder for å oppdatere store språkmodeller (LLM) med nye data uten å måtte lære dem opp på nytt, med vekt på strategier for å motvirke glemsel og dårlig tilpasning, som er vanlige utfordringer i dette domenet.
Innledning
Innledningen belyser betydningen av LLM-modeller i ulike AI-applikasjoner og utfordringene forbundet med å oppdatere disse modellene med nye data, særlig beregningskostnadene og ytelsesforringelsen på grunn av fordelingsendringer i de nye dataene.
De viktigste funnene og erfaringene
De viktigste bidragene i artikkelen er å demonstrere at en kombinasjon av oppvarming av læringshastigheten, reduksjon av læringshastigheten og avspilling av tidligere data kan oppnå en ytelse som kan sammenlignes med opplæring fra bunnen av på kombinerte datasett. Denne tilnærmingen reduserer beregningskostnadene betydelig, samtidig som modellens ytelse opprettholdes eller til og med forbedres på tvers av ulike skift i datadistribusjonen.
Bakgrunn & Metode
Skjemaer for læringstakt
Studien undersøker effekten av å justere planen for læringshastigheten, med særlig fokus på fordelene ved å varme opp (øke) og deretter senke (redusere) læringshastigheten når nye data introduseres i treningsprosessen.
Replay-mekanisme
Begrepet "compute-equivalent replay" introduseres som en metode for å inkorporere tidligere data i opplæringsprosessen for nye data, slik at beregningskostnadene forblir konstante ved å justere mengden nye data som behandles.
Eksperimentelt oppsett
Artikkelen beskriver datasettene som er brukt, de eksperimentelle innstillingene som er utformet for å teste de foreslåtte kontinuerlige pre-treningsstrategiene, og oppsettet for å evaluere modellens ytelse. Disse inkluderer en blanding av "svake" og "sterke" distribusjonsskift for å simulere ulike scenarier for datautvikling i den virkelige verden.
Resultater
Justeringer i læringsplanen
Eksperimentene viser at det er nødvendig å øke og redusere læringshastigheten for å tilpasse seg nye data på en effektiv måte, og funnene tyder på at denne strategien bidrar til å balansere tilpasning til nye data og bevaring av tidligere innlært informasjon.
Replayens rolle
Studien viser at avspilling av en brøkdel av de gamle dataene kan dempe effekten av glemsel betydelig, slik at modellen beholder ytelsen fra tidligere oppgaver samtidig som den lærer av nye data.
Modellens ytelse på tvers av skalaer
Resultatene indikerer at de foreslåtte strategiene er effektive på tvers av ulike modellstørrelser og datadistribusjonsskifter, og gir en skalerbar løsning på problemet med kontinuerlig foropplæring av LLM-er.