A normalização de lote é uma técnica usada em redes neurais profundas para melhorar a velocidade, a estabilidade e a convergência do treinamento. Seu principal objetivo é resolver o problema do deslocamento interno de covariáveis, que se refere à alteração na distribuição das entradas de cada camada durante o treinamento devido a alterações nos parâmetros da camada anterior. Esta mudança pode abrandar o processo de formação e tornar mais difícil a aprendizagem efectiva de cada camada.
Como funciona a normalização de lotes
-
Normalização em minilotes: Durante o treinamento, a normalização de lote normaliza a entrada de cada camada subtraindo a média do min ilote e dividindo pelo desvio padrão do minilote. Isso ajuda a reduzir o deslocamento interno das covariáveis, tornando a rede mais estável e permitindo um treinamento mais rápido.
-
Parâmetros aprendíveis: A normalização em lote introduz dois parâmetros aprendíveis por ativação, normalmente designados por parâmetros de escala e de deslocamento. Esses parâmetros permitem que o modelo se adapte e aprenda a escala e o deslocamento ideais para as entradas de cada camada.
-
Normalização entre características: Além de normalizar a dimensão do minilote, a normalização do lote também normaliza as características de cada amostra do lote. Esta normalização é efectuada de forma independente para cada dimensão de caraterística.
Impacto na formação
-
Convergência mais rápida: A normalização de lotes conduz frequentemente a uma convergência mais rápida durante a formação, permitindo a utilização de taxas de aprendizagem mais elevadas sem o risco de divergência.
-
Redução do sobreajuste: Actua como uma forma de regularização, reduzindo a dependência do dropout ou de outras técnicas de regularização, ajudando assim a evitar o sobreajuste até certo ponto.
-
Estabilidade e fluxo de gradiente: Estabiliza o processo de formação reduzindo a probabilidade de desaparecimento ou explosão de gradientes, permitindo um fluxo de gradiente mais robusto através da rede.
Desvantagens e limitações
-
Dependência do tamanho do lote: A eficácia da normalização de lotes pode ser influenciada pelo tamanho do lote utilizado durante a formação. Tamanhos de lote muito pequenos podem levar a estimativas imprecisas das estatísticas do minilote, afectando o seu desempenho.
-
Dificuldade de aplicação a algumas arquitecturas: A normalização de lotes pode não funcionar de forma óptima com redes neuronais recorrentes (RNNs) devido à natureza sequencial da sua computação.
-
Impacto na inferência: Durante a inferência, a média e o desvio padrão utilizados para a normalização devem ser estimados a partir de todo o conjunto de dados de treino ou de estatísticas de execução, o que pode introduzir alguma discrepância, especialmente nos casos em que a distribuição dos dados de inferência difere significativamente dos dados de treino.
Embora a normalização em lote seja uma técnica poderosa e comumente usada em muitas arquiteturas de aprendizado profundo, sua eficácia pode variar com base na arquitetura de rede, na distribuição de dados e em casos de uso específicos. Em alguns cenários, alternativas como normalização de camada ou normalização de instância podem ser preferidas.