Strategi Sederhana dan Skalabel untuk Terus Melatih Model Bahasa Besar

Strategi Sederhana dan Skalabel untuk Terus Melatih Model Bahasa Besar

Tautan Arxiv

13 Maret 2024

Makalah ini mengeksplorasi metode yang efisien untuk memperbarui model bahasa besar (LLM) dengan data baru tanpa perlu pelatihan ulang dari awal, menekankan strategi untuk mengurangi kelupaan dan adaptasi buruk, yang umum terjadi tantangan dalam domain ini.

Perkenalan

Pengenalan ini menyoroti pentingnya LLM dalam berbagai aplikasi AI dan tantangan yang terkait dengan memperbarui model ini dengan data baru, terutama biaya komputasi dan penurunan kinerja akibat pergeseran distribusi pada data baru .

Temuan dan Kesimpulan Utama

Kontribusi utama makalah ini mencakup menunjukkan bahwa kombinasi pemanasan kembali kecepatan pembelajaran, peluruhan ulang kecepatan pembelajaran, dan pemutaran ulang data sebelumnya dapat mencapai kinerja yang sebanding dengan pelatihan dari awal kumpulan data gabungan. Pendekatan ini secara signifikan mengurangi biaya komputasi, sekaligus mempertahankan atau bahkan meningkatkan kinerja model di berbagai pergeseran distribusi data.

Latar Belakang dan Metodologi

Jadwal Kecepatan Pembelajaran

Studi ini menyelidiki dampak penyesuaian jadwal kecepatan pembelajaran, khususnya berfokus pada manfaat menghangatkan kembali (meningkatkan) dan kemudian menurunkan kembali (menurunkan) kecepatan pembelajaran ketika memasukkan data baru ke dalam proses pelatihan.

Mekanisme Pemutaran Ulang

Konsep "pemutaran ulang setara komputasi" diperkenalkan sebagai metode untuk memasukkan data sebelumnya ke dalam proses pelatihan data baru, memastikan bahwa biaya komputasi tetap konstan dengan menyesuaikan jumlah data baru yang diproses.

Pengaturan Eksperimental

Makalah ini merinci kumpulan data yang digunakan, pengaturan eksperimental yang dirancang untuk menguji strategi pra-pelatihan berkelanjutan yang diusulkan, dan pengaturan untuk mengevaluasi kinerja model. Ini termasuk campuran pergeseran distribusi "lemah" dan "kuat" untuk mensimulasikan berbagai skenario evolusi data di dunia nyata.

Hasil

Penyesuaian Jadwal Kecepatan Pembelajaran

Eksperimen tersebut menunjukkan perlunya penghangatan kembali dan penurunan kecepatan pembelajaran untuk beradaptasi dengan data baru secara efektif, dan temuan menunjukkan bahwa strategi ini membantu menyeimbangkan adaptasi terhadap data baru dan retensi informasi yang dipelajari sebelumnya.

Peran Pemutaran Ulang

Studi tersebut menunjukkan bahwa memutar ulang sebagian kecil data lama dapat secara signifikan mengurangi dampak lupa, sehingga model dapat mempertahankan performanya pada tugas sebelumnya sambil tetap belajar dari data baru.

Performa Model di Seluruh Skala

Hasilnya menunjukkan bahwa strategi yang diusulkan efektif di berbagai ukuran model dan pergeseran distribusi data, memberikan solusi terukur terhadap masalah pra-pelatihan LLM yang berkelanjutan.

Code Labs Academy © 2024 Semua hak dilindungi undang-undang.