Qradient enmə və stoxastik qradiyent enmə (SGD) funksiyanı minimuma endirmək üçün istifadə edilən optimallaşdırma alqoritmləridir, adətən modeldə xətanın minimuma endirilməsi ilə əlaqələndirilir.
İkisi arasındakı əsas fərqlər aşağıdakılardır:
Qradient Eniş (GD)
-
Standart gradient enişində alqoritm bütün təlim məlumat dəstindən istifadə etməklə xərc funksiyasının gradientini hesablayır.
-
Bütün verilənlər bazasının gradientinin mənfisinə mütənasib addımlar ataraq model parametrlərini yeniləyir.
-
Bu üsul minimuma yaxınlaşmağa zəmanət verir (qabarıqlıq və müvafiq öyrənmə dərəcələri kimi müəyyən şərtlər nəzərə alınmaqla), lakin böyük verilənlər dəstləri üçün hesablama baxımından bahalı ola bilər.
Stokastik Qradient Eniş (SGD)
-
Stokastik gradient enişində alqoritm hər bir fərdi təlim nümunəsi üçün xərc funksiyasının qradiyentindən istifadə edərək model parametrlərini yeniləyir.
-
O, tək və ya kiçik məşq nümunələri əsasında tez-tez yeniləmələr edir, bu da onu böyük məlumat dəstləri üçün gradient enişindən daha sürətli edir.
-
Bununla belə, səs-küylü yeniləmələrinə görə, SGD daha çox dalğalanmalara malikdir və mütləq minimuma yaxınlaşmır; onun ətrafında salınaraq minimuma yaxın sahəyə yaxınlaşır.
Birini digərindən istifadə edərkən:
-
Gradient Descent (GD): Bu verilənlər toplusu nisbətən kiçik olduqda uyğundur və yaddaşa sığa bilir. Xərc funksiyası hamar və düzgün aparılırsa, GD səmərəli şəkildə minimuma yaxınlaşa bilər.
-
Stokastik Qradient Enişi (SGD): Bütün verilənlər toplusu üçün hesablama qradientlərinin hesablama baxımından baha olduğu böyük verilənlər dəstləri ilə işləyərkən üstünlük verilir. Xərc funksiyasının çoxlu yerli minimuma malik olduğu ssenarilərdə də faydalıdır, çünki yeniləmələrdə SGD-nin səs-küyü dayaz yerli minimumlardan qaçmağa kömək edə bilər. Bundan əlavə, SGD geniş məlumat dəstləri və yüksək ölçülü parametr boşluqlarına görə çox vaxt neyron şəbəkələrinin təlimində istifadə olunur.
Bundan əlavə, hər yeniləmə üçün verilənlərin alt dəstini nəzərə almaqla həm GD, həm də SGD-nin faydalarını tarazlayan mini-batch gradient enscent kimi dəyişikliklər praktikada tez-tez istifadə olunur. Bu alqoritmlər arasında seçim çox vaxt hesablama resurslarından, verilənlər bazasının ölçüsündən və xüsusi problemin xüsusiyyətlərindən asılıdır.