13 de março de 2024
Este documento explora métodos eficientes para atualizar modelos de linguagem de grande dimensão (LLM) com novos dados sem a necessidade de voltar a treinar a partir do zero, dando ênfase a estratégias para mitigar o esquecimento e a má adaptação, que são desafios comuns neste domínio.
Introdução
A introdução salienta a importância dos LLM em várias aplicações de IA e os desafios associados à atualização destes modelos com novos dados, nomeadamente os custos computacionais e a degradação do desempenho devido a mudanças na distribuição dos novos dados.
Principais conclusões e conclusões
Os principais contributos do documento incluem a demonstração de que uma combinação de reaquecimento da taxa de aprendizagem, re-decaimento da taxa de aprendizagem e repetição de dados anteriores pode alcançar um desempenho comparável ao treino a partir do zero em conjuntos de dados combinados. Esta abordagem reduz significativamente os custos computacionais, mantendo ou mesmo melhorando o desempenho do modelo em diferentes mudanças de distribuição de dados.
Antecedentes & Metodologia
Horários de taxas de aprendizagem
O estudo investiga o impacto do ajuste da programação da taxa de aprendizagem, concentrando-se particularmente nos benefícios do reaquecimento (aumento) e depois do reaquecimento (diminuição) da taxa de aprendizagem quando se introduzem novos dados no processo de formação.
Mecanismo de repetição
O conceito de "repetição equivalente à computação" é introduzido como um método para incorporar dados anteriores no processo de formação de novos dados, garantindo que o custo computacional se mantém constante através do ajuste da quantidade de novos dados processados.
Experimental Setup
O documento pormenoriza os conjuntos de dados utilizados, as configurações experimentais concebidas para testar as estratégias de pré-treino contínuo propostas e a configuração para avaliar o desempenho do modelo. Estes incluem uma mistura de mudanças de distribuição "fracas" e "fortes" para simular diferentes cenários reais de evolução de dados.
Resultados
Ajustes na programação da taxa de aprendizagem
Os experimentos demonstram a necessidade de reaquecimento e novo decaimento da taxa de aprendizagem para uma adaptação eficaz a novos dados, com descobertas sugerindo que esta estratégia ajuda a equilibrar a adaptação a novos dados e a retenção de informações previamente aprendidas.
O papel da repetição
O estudo mostra que a repetição de uma fração dos dados antigos pode mitigar significativamente os efeitos do esquecimento, permitindo ao modelo manter o seu desempenho em tarefas anteriores enquanto ainda aprende com os novos dados.
Modele o desempenho em todas as escalas
Os resultados indicam que as estratégias propostas são eficazes em diferentes tamanhos de modelos e mudanças na distribuição de dados, fornecendo uma solução escalável para o problema de pré-treinamento contínuo de LLMs.