Գրադիենտ իջնելը և ստոխաստիկ գրադիենտ իջնելը (SGD) օպտիմալացման ալգորիթմներ են, որոնք օգտագործվում են ֆունկցիան նվազագույնի հասցնելու համար, որոնք սովորաբար կապված են մոդելի սխալը նվազագույնի հասցնելու հետ:
Երկուսի միջև առաջնային տարբերությունները հետևյալն են.
Գրադիենտ ծագում (GD)
-
Ստանդարտ գրադիենտ ծագման դեպքում ալգորիթմը հաշվարկում է ծախսերի ֆունկցիայի գրադիենտը օգտագործելով ուսումնական ամբողջ տվյալների բազան:
-
Այն թարմացնում է մոդելի պարամետրերը՝ ձեռնարկելով քայլեր, որոնք համաչափ են ամբողջ տվյալների բազայի գրադիենտի բացասականին:
-
Այս մեթոդը երաշխավորում է նվազագույնի կոնվերգենցիան (հաշվի առնելով որոշակի պայմաններ, ինչպիսիք են ուռուցիկությունը և համապատասխան ուսուցման արագությունը), բայց կարող է հաշվողականորեն թանկ լինել տվյալների մեծ հավաքածուների համար:
Stochastic Gradient Descent (SGD)
-
Ստոխաստիկ գրադիենտ ծագման ժամանակ ալգորիթմը թարմացնում է մոդելի պարամետրերը, օգտագործելով ծախսերի ֆունկցիայի գրադիենտը յուրաքանչյուր առանձին ուսուցման օրինակի համար:
-
Այն հաճախակի թարմացումներ է կատարում՝ հիմնվելով ուսուցման օրինակների առանձին կամ փոքր խմբաքանակների վրա՝ դարձնելով այն շատ ավելի արագ, քան գրադիենտ ծագումը մեծ տվյալների հավաքածուների համար:
-
Այնուամենայնիվ, իր աղմկոտ թարմացումների պատճառով SGD-ն ավելի շատ տատանումներ ունի և պարտադիր չէ, որ համընկնի բացարձակ նվազագույնի. այն զուգակցվում է նվազագույնին մոտ տարածքի վրա՝ տատանվելով նրա շուրջը։
Երբ օգտագործել մեկը մյուսի վրա.
-
Գրադիենտ ծագում (GD). հարմար է երբ տվյալների բազան համեմատաբար փոքր է և կարող է տեղավորվել հիշողության մեջ: Եթե ծախսերի ֆունկցիան հարթ է և լավ վարքագիծ դրսևորելու, GD-ն կարող է արդյունավետ կերպով հասնել նվազագույնի:
-
Stochastic Gradient Descent (SGD). նախընտրելի է, երբ գործում ենք տվյալների մեծ հավաքածուների հետ, որտեղ ամբողջ տվյալների բազայի համար գրադիենտները հաշվարկելը դառնում է հաշվողականորեն թանկ: Այն նաև օգտակար է այն սցենարների դեպքում, երբ ծախսերի ֆունկցիան ունի բազմաթիվ տեղական նվազագույններ, քանի որ SGD-ի աղմուկը թարմացումներում կարող է օգնել խուսափել մակերեսային տեղական նվազագույնից: Ավելին, SGD-ն սովորաբար օգտագործվում է նեյրոնային ցանցերի ուսուցման մեջ՝ շնորհիվ նրանց հսկայական տվյալների հավաքածուների և բարձր չափերի պարամետրային տարածությունների:
Ավելին, գործնականում հաճախ օգտագործվում են այնպիսի տատանումներ, ինչպիսիք են մինի խմբաքանակի գրադիենտ իջնելը, որը հավասարակշռում է ինչպես GD-ի, այնպես էլ SGD-ի առավելությունները՝ հաշվի առնելով յուրաքանչյուր թարմացման տվյալների ենթախումբը: Այս ալգորիթմների միջև ընտրությունը հաճախ կախված է հաշվողական ռեսուրսներից, տվյալների բազայի չափից և կոնկրետ խնդրի բնութագրերից: