A Normalización por lotes é unha técnica utilizada en redes neuronais profundas para mellorar a velocidade de adestramento, a estabilidade e a converxencia. O seu propósito principal é abordar o problema do cambio covariable interno, que fai referencia ao cambio na distribución das entradas de cada capa durante o adestramento debido a cambios nos parámetros da capa anterior. Este cambio pode retardar o proceso de adestramento e facer que cada capa sexa máis difícil aprender de forma eficaz.
Como funciona a normalización por lotes
-
Normalización en mini-lotes: durante o adestramento, a normalización por lotes normaliza a entrada de cada capa restando a media do mini-lote e dividíndoa pola desviación estándar do mini-lote. Isto axuda a reducir o cambio de covariable interno, facendo que a rede sexa máis estable e permitindo un adestramento máis rápido.
-
Parámetros aprendibles: a normalización por lotes introduce dous parámetros aprendibles por activación, normalmente denominados parámetros de escala e cambio. Estes parámetros permiten que o modelo se adapte e aprenda a escala e o cambio óptimos para as entradas de cada capa.
-
Normalización en funcións: ademais de normalizar a dimensión do mini-lote, a normalización de lote tamén normaliza todas as funcións para cada mostra dentro do lote. Esta normalización realízase de forma independente para cada dimensión da característica.
Impacto na formación
-
Converxencia máis rápida: a normalización por lotes adoita levar a unha converxencia máis rápida durante o adestramento ao permitir o uso de taxas de aprendizaxe máis altas sen risco de diverxencia.
-
Redución do sobreajuste: actúa como unha forma de regularización, reducindo a dependencia do abandono escolar ou doutras técnicas de regularización, contribuíndo así a previr ata certo punto o sobreadaptación.
-
Estabilidade e fluxo de gradientes: estabiliza o proceso de adestramento ao reducir a probabilidade de desaparición ou explosión de gradientes, o que permite un fluxo de gradientes máis robusto a través da rede.
Desvantaxes e limitacións
-
Dependencia do tamaño do lote: a eficacia da normalización do lote pode verse influenciada polo tamaño do lote utilizado durante o adestramento. Os tamaños de lotes moi pequenos poden levar a estimacións inexactas das estatísticas dos minilotes, o que afecta o seu rendemento.
-
Dificultade para aplicarse a algunhas arquitecturas: a normalización por lotes pode non funcionar de forma óptima coas redes neuronais recorrentes (RNN) debido á natureza secuencial do seu cálculo.
-
Impacto na inferencia: durante a inferencia, a media e a desviación estándar utilizadas para a normalización deben estimarse a partir de todo o conxunto de datos de adestramento ou das estatísticas en execución, o que pode introducir algunha discrepancia, especialmente nos casos nos que a distribución de datos de inferencia difire significativamente da os datos de formación.
Aínda que a normalización por lotes é unha técnica poderosa e que se usa habitualmente en moitas arquitecturas de aprendizaxe profunda, a súa eficacia pode variar segundo a arquitectura de rede, a distribución de datos e os casos de uso específicos. Nalgúns escenarios, pódense preferir alternativas como normalización de capas ou normalización de instancias.