papers
大規模な言語モデルを継続的に事前トレーニングするためのシンプルでスケーラブルな戦略
大規模言語モデル (LLM) の継続学習に対する画期的なアプローチを発見し、コストのかかる再トレーニングの必要性を排除します。学習率の再ウォーミング、再減衰、データ再生などのシンプルな戦略により、異なる言語データセット間であってもパフォーマンスを犠牲にすることなく LLM 更新がどのように可能になるかを調べてください。これらの方法がコンピューティング要件を大幅に削減しながら、再トレーニングの結果と同等またはそれを上回る方法を学びましょう。