O concepto de normalización por lotes nas redes neuronais

Actualizado en September 24, 2024 3 Minutos lidos

O concepto de normalización por lotes nas redes neuronais cover image

A Normalización por lotes é unha técnica utilizada en redes neuronais profundas para mellorar a velocidade de adestramento, a estabilidade e a converxencia. O seu propósito principal é abordar o problema do cambio covariable interno, que fai referencia ao cambio na distribución das entradas de cada capa durante o adestramento debido a cambios nos parámetros da capa anterior. Este cambio pode retardar o proceso de adestramento e facer que cada capa sexa máis difícil aprender de forma eficaz.

Como funciona a normalización por lotes

  • Normalización en mini-lotes: durante o adestramento, a normalización por lotes normaliza a entrada de cada capa restando a media do mini-lote e dividíndoa pola desviación estándar do mini-lote. Isto axuda a reducir o cambio de covariable interno, facendo que a rede sexa máis estable e permitindo un adestramento máis rápido.

  • Parámetros aprendibles: a normalización por lotes introduce dous parámetros aprendibles por activación, normalmente denominados parámetros de escala e cambio. Estes parámetros permiten que o modelo se adapte e aprenda a escala e o cambio óptimos para as entradas de cada capa.

  • Normalización en funcións: ademais de normalizar a dimensión do mini-lote, a normalización de lote tamén normaliza todas as funcións para cada mostra dentro do lote. Esta normalización realízase de forma independente para cada dimensión da característica.

Impacto na formación

  • Converxencia máis rápida: a normalización por lotes adoita levar a unha converxencia máis rápida durante o adestramento ao permitir o uso de taxas de aprendizaxe máis altas sen risco de diverxencia.

  • Redución do sobreajuste: actúa como unha forma de regularización, reducindo a dependencia do abandono escolar ou doutras técnicas de regularización, contribuíndo así a previr ata certo punto o sobreadaptación.

  • Estabilidade e fluxo de gradientes: estabiliza o proceso de adestramento ao reducir a probabilidade de desaparición ou explosión de gradientes, o que permite un fluxo de gradientes máis robusto a través da rede.

Desvantaxes e limitacións

  • Dependencia do tamaño do lote: a eficacia da normalización do lote pode verse influenciada polo tamaño do lote utilizado durante o adestramento. Os tamaños de lotes moi pequenos poden levar a estimacións inexactas das estatísticas dos minilotes, o que afecta o seu rendemento.

  • Dificultade para aplicarse a algunhas arquitecturas: a normalización por lotes pode non funcionar de forma óptima coas redes neuronais recorrentes (RNN) debido á natureza secuencial do seu cálculo.

  • Impacto na inferencia: durante a inferencia, a media e a desviación estándar utilizadas para a normalización deben estimarse a partir de todo o conxunto de datos de adestramento ou das estatísticas en execución, o que pode introducir algunha discrepancia, especialmente nos casos nos que a distribución de datos de inferencia difire significativamente da os datos de formación.

Aínda que a normalización por lotes é unha técnica poderosa e que se usa habitualmente en moitas arquitecturas de aprendizaxe profunda, a súa eficacia pode variar segundo a arquitectura de rede, a distribución de datos e os casos de uso específicos. Nalgúns escenarios, pódense preferir alternativas como normalización de capas ou normalización de instancias.