Gradientearen jaitsiera eta gradiente estokastikoa jaitsiera (SGD) optimizazio algoritmoak funtzio bat minimizatzeko erabiltzen dira, normalean eredu bateko errorea minimizatzearekin lotuta.
Bien arteko desberdintasun nagusiak honako hauek dira:
Jeitsiera gradientea (GD)
-
Gradienteen jaitsiera estandarrean, algoritmoak kostu-funtzioaren gradientea kalkulatzen du entrenamendu-datu multzo osoa erabiliz.
-
Ereduaren parametroak eguneratzen ditu datu-multzo osoaren gradientearen negatiboarekiko proportzionalak diren urratsak eginez.
-
Metodo honek gutxieneko konbergentzia bermatzen du (konbexitatea eta ikasketa-tasa egokiak bezalako baldintza batzuk emanda), baina konputazionalki garestia izan daiteke datu multzo handietarako.
Gradiente Estokastikoaren Jaitsiera (SGD)
-
Gradiente estokastikoan, algoritmoak ereduaren parametroak eguneratzen ditu kostu-funtzioaren gradientea erabiliz prestakuntza-adibide bakoitza.
-
Maiz eguneratzeak egiten ditu prestakuntza-adibide bakarrean edo lote txikietan oinarrituta, datu-multzo handietarako gradienteen jaitsiera baino askoz azkarragoa eginez**.
-
Hala ere, bere eguneratze zaratatsuak direla eta, SGD-k gorabehera gehiago ditu eta ez du zertan minimo absolutura batu behar; minimotik hurbil dagoen eremu batera bat egiten du, haren inguruan oszilatuz.
Noiz erabili bata bestearen gainean:
-
Gradient Descent (GD): egokia da datu multzoa nahiko txikia denean eta memorian sar daitekeenean. Kostu-funtzioa leuna eta ondo portatzen bada, GD modu eraginkorrean gutxienera bat egin dezake.
-
Gradiente estokastikoen jaitsiera (SGD): hobe da datu-multzo handiekin lantzean, non datu-multzo osoaren gradienteen konputazioa konputazionalki garestia bihurtzen denean. Kostu-funtzioak tokiko minimo asko dituen agertokietan ere erabilgarria da, SGD-ren zaratak eguneraketetan sakonera txikiko minimo lokaletik ihes egiten lagun dezakeelako. Gainera, SGD normalean erabiltzen da sare neuronalak entrenatzeko, datu multzo zabalak eta dimentsio handiko parametro-espazioak direla eta.
Gainera, mini-batch gradiente jaitsiera bezalako aldakuntzak, GD eta SGDren onurak orekatzen dituena eguneratze bakoitzeko datuen azpimultzo bat kontuan hartuta, askotan erabiltzen dira praktikan. Algoritmo hauen arteko aukeraketa baliabide konputazionalen, datu-multzoaren tamainaren eta arazo espezifikoen ezaugarrien araberakoa da askotan.