대규모 언어 모델을 지속적으로 사전 훈련하기 위한 간단하고 확장 가능한 전략

November 19, 2024에서 업데이트 2 분을 읽습니다

2024년 3월 13일

이 문서에서는 처음부터 재교육할 필요 없이 새로운 데이터로 대규모 언어 모델(LLM)을 업데이트하는 효율적인 방법을 탐구하고, 일반적으로 발생하는 망각 완화 및 잘못된 적응 전략을 강조합니다. 이 영역의 과제.

소개

소개에서는 다양한 AI 애플리케이션에서 LLM의 중요성과 이러한 모델을 새로운 데이터로 업데이트하는 것과 관련된 과제, 특히 계산 비용 및 새 데이터의 분포 변화로 인한 성능 저하를 강조합니다. .

주요 조사 결과 및 시사점

이 논문의 주요 기여에는 학습률 재가열, 학습률 재감소 및 이전 데이터 재생의 조합이 처음부터 훈련하는 것과 비슷한 성능을 달성할 수 있음을 입증하는 것이 포함됩니다. 결합된 데이터세트. 이 접근 방식은 계산 비용을 크게 줄이는 동시에 다양한 데이터 분포 변화에 걸쳐 모델 성능을 유지하거나 향상시킵니다.

배경 및 방법론

학습률 일정

이 연구에서는 학습 속도 일정 조정의 영향을 조사합니다. 특히 훈련 과정에 새로운 데이터를 도입할 때 학습 속도를 다시 가온(증가)한 다음 다시 감소(감소)시키는 것의 이점에 중점을 둡니다.

재생 메커니즘

이전 데이터를 새 데이터의 학습 과정에 통합하여 처리되는 새 데이터의 양을 조정하여 계산 비용을 일정하게 유지하는 방법으로 “계산 동등 재생”이라는 개념이 도입되었습니다.

실험 설정

이 논문에서는 사용된 데이터 세트, 제안된 연속 사전 학습 전략을 테스트하기 위해 설계된 실험 설정, 모델 성능 평가를 위한 설정에 대해 자세히 설명합니다. 여기에는 데이터 진화의 다양한 실제 시나리오를 시뮬레이션하기 위한 “약한” 및 “강한” 분포 변화의 혼합이 포함됩니다.

결과

학습률 일정 조정

실험은 새로운 데이터에 효과적으로 적응하기 위해 학습률 재가열 및 재감쇠의 필요성을 보여 주며, 이 전략이 새로운 데이터에 대한 적응과 이전에 학습된 정보 보존의 균형을 맞추는 데 도움이 된다는 결과가 나와 있습니다.

재생의 역할

연구에 따르면 이전 데이터의 일부를 재생하면 망각의 영향을 크게 완화할 수 있어 모델이 새 데이터에서 학습하는 동시에 이전 작업에 대한 성능을 유지할 수 있음을 보여줍니다.

다양한 규모의 모델 성능

결과는 제안된 전략이 다양한 모델 크기와 데이터 분포 변화에 걸쳐 효과적이며 LLM의 지속적인 사전 교육 문제에 대한 확장 가능한 솔루션을 제공한다는 것을 나타냅니다.

기술 분야에서 성공하는 데 도움이 되는 포괄적인 면접 코칭과 취업 지원을 제공하는 Code Labs Academy의 온라인 부트캠프를 통해 취업 준비를 하세요.