Toplu Normalleştirme, derin sinir ağlarında eğitim hızını, kararlılığı ve yakınsamayı iyileştirmek için kullanılan bir tekniktir. Temel amacı, önceki katmanın parametrelerindeki değişiklikler nedeniyleeğitim sırasında her katmanın girdilerinin dağılımındaki değişiklikanlamına gelendahili ortak değişken kayması** sorununu ele almaktır. Bu değişim, eğitim sürecini yavaşlatabilir ve her katmanın etkili bir şekilde öğrenmesini daha zorlu hale getirebilir.
Toplu Normalleştirme Nasıl Çalışır
-
Mini partiler içinde normalleştirme: Eğitim sırasında toplu normalleştirme, mini parti ortalamasını çıkararak ve mini parti standart sapmasına bölerek her katmanın girdisini normalleştirir. Bu, dahili ortak değişken kaymasının azaltılmasına, ağın daha istikrarlı hale getirilmesine ve daha hızlı eğitime izin verilmesine yardımcı olur.
-
Öğrenilebilir Parametreler: Toplu normalleştirme, etkinleştirme başına iki öğrenilebilir parametre sunar; bunlar genellikle ölçek ve kaydırma parametreleri olarak adlandırılır. Bu parametreler, modelin uyum sağlamasına ve her katmanın girdileri için en uygun ölçek ve kaydırmayı öğrenmesine olanak tanır.
-
Özellikler Genelinde Normalleştirme: Mini parti boyutu genelinde normalleştirmeye ek olarak, toplu normalleştirme aynı zamanda topluluk içindeki her numune için özellikler genelinde de normalleştirme yapar. Bu normalleştirme, her özellik boyutu için bağımsız olarak gerçekleştirilir.
Eğitim Üzerindeki Etki
-
Daha Hızlı Yakınsama: Toplu normalleştirme, farklılık riski olmadan daha yüksek öğrenme oranlarının kullanılmasına izin vererek eğitim sırasında genellikle daha hızlı yakınsamaya yol açar.
-
Aşırı Uyarlamada Azalma: Bir düzenleme biçimi görevi görür, bırakma veya diğer düzenleme tekniklerine olan bağımlılığı azaltır ve böylece aşırı uyumun bir dereceye kadar önlenmesine yardımcı olur.
-
Kararlılık ve Gradyan Akışı: Degradelerin kaybolması veya patlaması olasılığını azaltarak eğitim sürecini dengeler ve ağ boyunca daha sağlam bir degrade akışı sağlar.
Dezavantajlar ve Sınırlamalar
-
Toplu Boyut Bağımlılığı: Toplu normalleştirmenin etkinliği, eğitim sırasında kullanılan toplu iş boyutundan etkilenebilir. Çok küçük parti boyutları, mini parti istatistiklerinin yanlış tahmin edilmesine yol açarak performansını etkileyebilir.
-
Bazı Mimarilere Uygulamada Zorluk: Toplu normalleştirme, hesaplamalarının sıralı yapısından dolayı tekrarlayan sinir ağlarında (RNN'ler) ideal şekilde çalışmayabilir.
-
Çıkarım Üzerindeki Etki: Çıkarım sırasında, normalleştirme için kullanılan ortalama ve standart sapmanın, tüm eğitim veri kümesinden veya çalışan istatistiklerden tahmin edilmesi gerekir; bu, özellikle çıkarım verisi dağılımının önemli ölçüde farklı olduğu durumlarda bazı tutarsızlıklara neden olabilir. eğitim verileri.
Toplu normalleştirme güçlü bir teknik olmasına ve birçok derin öğrenme mimarisinde yaygın olarak kullanılmasına rağmen etkinliği ağ mimarisine, veri dağıtımına ve belirli kullanım durumlarına göre değişebilir. Bazı senaryolarda katman normalleştirme veya örnek normalleştirme gibi alternatifler tercih edilebilir.