13 Maret 2024
Makalah ini mengeksplorasi metode yang efisien untuk memperbarui model bahasa besar (LLM) dengan data baru tanpa perlu pelatihan ulang dari awal, menekankan strategi untuk mengurangi kelupaan dan adaptasi buruk, yang umum terjadi tantangan dalam domain ini.
Perkenalan
Pengenalan ini menyoroti pentingnya LLM dalam berbagai aplikasi AI dan tantangan yang terkait dengan memperbarui model ini dengan data baru, terutama biaya komputasi dan penurunan kinerja akibat pergeseran distribusi pada data baru .
Temuan dan Kesimpulan Utama
Kontribusi utama makalah ini mencakup menunjukkan bahwa kombinasi pemanasan kembali kecepatan pembelajaran, peluruhan ulang kecepatan pembelajaran, dan pemutaran ulang data sebelumnya dapat mencapai kinerja yang sebanding dengan pelatihan dari awal kumpulan data gabungan. Pendekatan ini secara signifikan mengurangi biaya komputasi, sekaligus mempertahankan atau bahkan meningkatkan kinerja model di berbagai pergeseran distribusi data.
Latar Belakang dan Metodologi
Jadwal Kecepatan Pembelajaran
Studi ini menyelidiki dampak penyesuaian jadwal kecepatan pembelajaran, khususnya berfokus pada manfaat menghangatkan kembali (meningkatkan) dan kemudian menurunkan kembali (menurunkan) kecepatan pembelajaran ketika memasukkan data baru ke dalam proses pelatihan.
Mekanisme Pemutaran Ulang
Konsep "pemutaran ulang setara komputasi" diperkenalkan sebagai metode untuk memasukkan data sebelumnya ke dalam proses pelatihan data baru, memastikan bahwa biaya komputasi tetap konstan dengan menyesuaikan jumlah data baru yang diproses.
Pengaturan Eksperimental
Makalah ini merinci kumpulan data yang digunakan, pengaturan eksperimental yang dirancang untuk menguji strategi pra-pelatihan berkelanjutan yang diusulkan, dan pengaturan untuk mengevaluasi kinerja model. Ini termasuk campuran pergeseran distribusi "lemah" dan "kuat" untuk mensimulasikan berbagai skenario evolusi data di dunia nyata.
Hasil
Penyesuaian Jadwal Kecepatan Pembelajaran
Eksperimen tersebut menunjukkan perlunya penghangatan kembali dan penurunan kecepatan pembelajaran untuk beradaptasi dengan data baru secara efektif, dan temuan menunjukkan bahwa strategi ini membantu menyeimbangkan adaptasi terhadap data baru dan retensi informasi yang dipelajari sebelumnya.
Peran Pemutaran Ulang
Studi tersebut menunjukkan bahwa memutar ulang sebagian kecil data lama dapat secara signifikan mengurangi dampak lupa, sehingga model dapat mempertahankan performanya pada tugas sebelumnya sambil tetap belajar dari data baru.
Performa Model di Seluruh Skala
Hasilnya menunjukkan bahwa strategi yang diusulkan efektif di berbagai ukuran model dan pergeseran distribusi data, memberikan solusi terukur terhadap masalah pra-pelatihan LLM yang berkelanjutan.
Persiapkan karier Anda dengan Kamp Pelatihan Online, yang menawarkan pelatihan wawancara komprehensif dan bantuan kerja untuk membantu Anda sukses di bidang teknologi.