13 maart 2024
In dit artikel worden efficiënte methoden onderzocht voor het bijwerken van grote taalmodellen (LLM's) met nieuwe gegevens zonder dat ze helemaal opnieuw hoeven te worden getraind, waarbij de nadruk ligt op strategieën om vergeten en slechte aanpassing te beperken, wat veelvoorkomende uitdagingen zijn in dit domein.
Inleiding
De inleiding belicht het belang van LLM's in verschillende AI-toepassingen en de uitdagingen die gepaard gaan met het updaten van deze modellen met nieuwe gegevens, met name de rekenkosten en prestatievermindering als gevolg van distributieverschuivingen in de nieuwe gegevens.
Belangrijkste bevindingen en conclusies
De belangrijkste bijdragen van dit artikel zijn onder andere het aantonen dat een combinatie van het opnieuw opwarmen van de leersnelheid, het opnieuw afnemen van de leersnelheid en het opnieuw afspelen van eerdere gegevens prestaties kan opleveren die vergelijkbaar zijn met het opnieuw trainen van gecombineerde datasets. Deze aanpak verlaagt de computerkosten aanzienlijk, terwijl de prestaties van het model behouden blijven of zelfs verbeteren bij verschillende verschuivingen in de gegevensdistributie.
Achtergrond & Methodologie
Leertariefschema's
De studie onderzoekt de invloed van het aanpassen van het leersnelheidsschema, met name gericht op de voordelen van het opnieuw opwarmen (verhogen) en vervolgens opnieuw laten dalen (verlagen) van de leersnelheid bij het introduceren van nieuwe gegevens in het trainingsproces.
Replay-mechanisme
Het concept van "compute-equivalent replay" wordt geïntroduceerd als een methode om eerdere gegevens op te nemen in het trainingsproces van nieuwe gegevens, waarbij ervoor wordt gezorgd dat de computerkosten constant blijven door de hoeveelheid verwerkte nieuwe gegevens aan te passen.
Experimentele opstelling
Het artikel beschrijft de gebruikte datasets, de experimentele instellingen die zijn ontworpen om de voorgestelde strategieën voor continue pre-training te testen, en de opzet voor het evalueren van de modelprestaties. Deze omvatten een mix van "zwakke" en "sterke" distributieverschuivingen om verschillende real-world scenario's van gegevensevolutie te simuleren.
Resultaten
Aanpassingen in het leertariefschema
De experimenten tonen de noodzaak aan van het opnieuw opwarmen en vertragen van de leersnelheid om zich effectief aan te passen aan nieuwe gegevens, waarbij de bevindingen suggereren dat deze strategie helpt bij het balanceren van de aanpassing aan nieuwe gegevens en het vasthouden van eerder geleerde informatie.
De rol van herhaling
Het onderzoek toont aan dat het opnieuw afspelen van een fractie van de oude gegevens de effecten van het vergeten aanzienlijk kan verminderen, waardoor het model zijn prestaties op eerdere taken kan behouden en toch kan leren van nieuwe gegevens.
Modelprestaties op verschillende schalen
De resultaten geven aan dat de voorgestelde strategieën effectief zijn bij verschillende modelgroottes en verschuivingen in de gegevensdistributie, waardoor een schaalbare oplossing wordt geboden voor het probleem van het voortdurend voortrainen van LLM's.