배치 정규화는 심층 신경망에서 훈련 속도, 안정성 및 수렴을 개선하는 데 사용되는 기술입니다. 주요 목적은 이전 레이어 매개변수의 변경으로 인해 훈련 중 각 레이어 입력 분포의 변화를 나타내는 내부 공변량 이동 문제를 해결하는 것입니다. 이러한 변화는 훈련 과정을 늦추고 각 계층이 효과적으로 학습하는 것을 더욱 어렵게 만들 수 있습니다.
배치 정규화 작동 방식
-
미니 배치 내 정규화: 훈련 중에 배치 정규화는 미니 배치 평균을 빼고 미니 배치 표준 편차로 나누어 각 계층의 입력을 정규화합니다. 이는 내부 공변량 이동을 줄여 네트워크를 더욱 안정적으로 만들고 더 빠른 훈련을 가능하게 하는 데 도움이 됩니다.
-
학습 가능한 매개변수: 배치 정규화는 일반적으로 scale 및 shift 매개변수라고 하는 활성화당 두 개의 학습 가능한 매개변수를 도입합니다. 이러한 매개변수를 통해 모델은 각 레이어의 입력에 대한 최적의 규모와 이동을 조정하고 학습할 수 있습니다**.
-
특성 전체에 걸친 정규화: 배치 정규화는 미니 배치 차원 전체에 걸쳐 정규화하는 것 외에도 배치 내 각 샘플의 특성 전체에 걸쳐 정규화합니다. 이 정규화는 각 기능 차원에 대해 독립적으로 수행됩니다.
훈련에 미치는 영향
-
빠른 수렴: 배치 정규화는 발산 위험 없이 더 높은 학습률을 사용할 수 있도록 허용하여 훈련 중에 더 빠른 수렴으로 이어지는 경우가 많습니다.
-
과적합 감소: 정규화의 한 형태 역할을 하여 드롭아웃이나 기타 정규화 기술에 대한 의존도를 줄여 과적합을 어느 정도 방지하는 데 도움이 됩니다.
-
안정성 및 경사 흐름: **경도가 사라지거나 폭발할 가능성을 줄여 훈련 프로세스를 안정화하고 네트워크를 통해 보다 강력한 경사 흐름을 가능하게 합니다.
단점 및 제한 사항
-
배치 크기 종속성: 배치 정규화의 효율성은 훈련 중에 사용되는 배치 크기에 의해 영향을 받을 수 있습니다. 배치 크기가 매우 작으면 미니 배치 통계가 부정확하게 추정되어 성능에 영향을 미칠 수 있습니다.
-
일부 아키텍처에 적용 시 어려움: 일괄 정규화는 계산의 순차적 특성으로 인해 반복 신경망(RNN)에서 최적으로 작동하지 않을 수 있습니다.
-
추론에 대한 영향: 추론 중에 정규화에 사용되는 평균 및 표준 편차는 전체 훈련 데이터 세트 또는 실행 통계에서 추정되어야 하며, 이로 인해 특히 추론 데이터 분포가 실제와 크게 다른 경우 약간의 불일치가 발생할 수 있습니다. 훈련 데이터.
배치 정규화는 강력한 기술이며 많은 딥 러닝 아키텍처에서 일반적으로 사용되지만 그 효과는 네트워크 아키텍처, 데이터 배포 및 특정 사용 사례에 따라 달라질 수 있습니다. 일부 시나리오에서는 레이어 정규화 또는 인스턴스 정규화와 같은 대안이 선호될 수 있습니다.