O concepto de normalización por lotes nas redes neuronais

Actualizado en September 24, 2024 3 Minutos lidos

A Normalización por lotes é unha técnica utilizada en redes neuronais profundas para mellorar a velocidade de adestramento, a estabilidade e a converxencia. O seu propósito principal é abordar o problema do cambio covariable interno, que fai referencia ao cambio na distribución das entradas de cada capa durante o adestramento debido a cambios nos parámetros da capa anterior. Este cambio pode retardar o proceso de adestramento e facer que cada capa sexa máis difícil aprender de forma eficaz.

Como funciona a normalización por lotes

Normalización en mini-lotes: durante o adestramento, a normalización por lotes normaliza a entrada de cada capa restando a media do mini-lote e dividíndoa pola desviación estándar do mini-lote. Isto axuda a reducir o cambio de covariable interno, facendo que a rede sexa máis estable e permitindo un adestramento máis rápido.
Parámetros aprendibles: a normalización por lotes introduce dous parámetros aprendibles por activación, normalmente denominados parámetros de escala e cambio. Estes parámetros permiten que o modelo se adapte e aprenda a escala e o cambio óptimos para as entradas de cada capa.
Normalización en funcións: ademais de normalizar a dimensión do mini-lote, a normalización de lote tamén normaliza todas as funcións para cada mostra dentro do lote. Esta normalización realízase de forma independente para cada dimensión da característica.

Impacto na formación

Converxencia máis rápida: a normalización por lotes adoita levar a unha converxencia máis rápida durante o adestramento ao permitir o uso de taxas de aprendizaxe máis altas sen risco de diverxencia.
Redución do sobreajuste: actúa como unha forma de regularización, reducindo a dependencia do abandono escolar ou doutras técnicas de regularización, contribuíndo así a previr ata certo punto o sobreadaptación.
Estabilidade e fluxo de gradientes: estabiliza o proceso de adestramento ao reducir a probabilidade de desaparición ou explosión de gradientes, o que permite un fluxo de gradientes máis robusto a través da rede.

Desvantaxes e limitacións

Dependencia do tamaño do lote: a eficacia da normalización do lote pode verse influenciada polo tamaño do lote utilizado durante o adestramento. Os tamaños de lotes moi pequenos poden levar a estimacións inexactas das estatísticas dos minilotes, o que afecta o seu rendemento.
Dificultade para aplicarse a algunhas arquitecturas: a normalización por lotes pode non funcionar de forma óptima coas redes neuronais recorrentes (RNN) debido á natureza secuencial do seu cálculo.
Impacto na inferencia: durante a inferencia, a media e a desviación estándar utilizadas para a normalización deben estimarse a partir de todo o conxunto de datos de adestramento ou das estatísticas en execución, o que pode introducir algunha discrepancia, especialmente nos casos nos que a distribución de datos de inferencia difire significativamente da os datos de formación.

Aínda que a normalización por lotes é unha técnica poderosa e que se usa habitualmente en moitas arquitecturas de aprendizaxe profunda, a súa eficacia pode variar segundo a arquitectura de rede, a distribución de datos e os casos de uso específicos. Nalgúns escenarios, pódense preferir alternativas como normalización de capas ou normalización de instancias.