13 marca 2024 r
W artykule omówiono skuteczne metody aktualizowania dużych modeli językowych (LLM) nowymi danymi bez konieczności ponownego uczenia się od zera, kładąc nacisk na strategie łagodzenia zapominania i słabej adaptacji, które są powszechne wyzwania w tej dziedzinie.
Wstęp
We wstępie podkreślono znaczenie LLM w różnych zastosowaniach sztucznej inteligencji oraz wyzwania związane z aktualizacją tych modeli nowymi danymi, w szczególności koszty obliczeniowe i pogorszenie wydajności ze względu na zmiany w dystrybucji nowych danych .
Główne wnioski i wnioski na wynos
Główny wkład artykułu obejmuje wykazanie, że połączenie ponownego wzrostu szybkości uczenia się, ponownego spadku szybkości uczenia się i powtórzenia poprzednich danych może osiągnąć wydajność porównywalną do treningu od zera połączone zbiory danych. Takie podejście znacznie zmniejsza koszty obliczeniowe, utrzymując lub nawet poprawiając wydajność modelu przy różnych zmianach dystrybucji danych.
Tło i metodologia
Harmonogramy szybkości uczenia się
W badaniu zbadano wpływ dostosowania harmonogramu szybkości uczenia się, ze szczególnym uwzględnieniem korzyści płynących z ponownego ocieplenia (zwiększenia), a następnie ponownego obniżenia (zmniejszenia) szybkości uczenia się podczas wprowadzania nowych danych do procesu uczenia.
Mechanizm powtórki
Wprowadzono koncepcję „powtórki równoważnej obliczeniowo” jako metodę włączania poprzednich danych do procesu uczenia nowych danych, zapewniając stały koszt obliczeń poprzez dostosowanie ilości nowych przetwarzanych danych.
Konfiguracja eksperymentalna
W artykule szczegółowo opisano użyte zbiory danych, ustawienia eksperymentalne zaprojektowane do testowania proponowanych strategii ciągłego szkolenia przedtreningowego oraz konfigurację oceny wydajności modelu. Obejmują one mieszankę „słabych” i „silnych” przesunięć dystrybucji w celu symulacji różnych rzeczywistych scenariuszy ewolucji danych.
Wyniki
Korekty harmonogramu szybkości uczenia się
Eksperymenty wykazują konieczność ponownego podgrzewania i ponownego zanikania szybkości uczenia się w celu skutecznego przystosowania się do nowych danych, a ustalenia sugerują, że strategia ta pomaga w zrównoważeniu adaptacji do nowych danych i zatrzymywaniu wcześniej poznanych informacji.
Rola powtórki
Badanie pokazuje, że odtworzenie ułamka starych danych może znacznie złagodzić skutki zapomnienia, umożliwiając modelowi zachowanie wydajności poprzednich zadań, a jednocześnie uczenie się na nowych danych.
Wydajność modelu w różnych skalach
Wyniki wskazują, że proponowane strategie są skuteczne w przypadku różnych rozmiarów modeli i zmian w dystrybucji danych, zapewniając skalowalne rozwiązanie problemu ciągłego wstępnego szkolenia LLM.
Przygotuj się do kariery dzięki Code Labs Academy Online Bootcamps, oferującym kompleksowy coaching podczas rozmów kwalifikacyjnych i pomoc w znalezieniu pracy, które pomogą Ci odnieść sukces w branży technologicznej.