Градиенттин түшүүсү жана стохастикалык градиенттин түшүүсү (SGD) функцияны кичирейтүү үчүн колдонулган оптималдаштыруу алгоритмдери, адатта моделдеги катаны азайтуу менен байланышкан.
Экөөнүн ортосундагы негизги айырмачылыктар төмөнкүлөр:
Градиенттик түшүү (GD)
-
Стандарттык градиенттин ылдыйлоосунда алгоритм чыгымдар функциясынын градиентин тренингдин бүтүндөй топтомун колдонуу менен эсептейт.
-
Ал бүт маалымат топтомунун градиентинин терсине пропорционалдуу кадамдарды жасоо менен моделдин параметрлерин жаңыртат.
-
Бул ыкма минималдуу конвергенцияга кепилдик берет (белгилүү шарттарды, мисалы, томпоктук жана ылайыктуу окуу темптерин эске алганда), бирок чоң маалымат топтомдору үчүн эсептөө кымбат болушу мүмкүн.
Стохастикалык градиенттин түшүүсү (SGD)
-
Стохастикалык градиенттин түшүүсүндө, алгоритм ар бир жеке окутуу мисалы үчүн нарк функциясынын градиентинин жардамы менен моделдин параметрлерин жаңылайт.
-
Бул окуу мисалдарынын бир же кичине партияларынын негизинде тез-тез жаңыртууларды жасап турат, бул аны чоң маалымат топтомдору үчүн градиенттин түшүүсүнө караганда бир топ ылдамыраак кылат.
-
Бирок, анын ызы-чуу жаңыртууларынан улам, SGD көбүрөөк термелүүлөргө ээ жана сөзсүз түрдө абсолюттук минимумга жакындабайт; минимумга жакын аймакка жакындайт, анын айланасында термелүүдө.
Биринин үстүнөн качан колдонуу керек:
-
Градиенттик түшүү (GD): Бул берилиштер топтому салыштырмалуу кичине болгондо ылайыктуу жана эстутумга туура келет. Эгерде нарк функциясы жылмакай жана жакшы жүрүм-турум болсо, GD эффективдүү түрдө минимумга жакындай алат.
-
Стохастикалык градиенттин түшүүсү (SGD): чоң берилиштер топтомдору менен иштөөдө артыкчылыктуу, анда бүт маалымат топтому үчүн градиенттерди эсептөө эсептөө үчүн кымбат болуп калат. Бул ошондой эле чыгымдар функциясынын жергиликтүү минимумдары көп болгон сценарийлерде да пайдалуу, анткени SGD жаңыртууларындагы ызы-чуу жергиликтүү минимумдардан качууга жардам берет. Андан тышкары, SGD көбүнчө нейрондук тармактарды окутууда колдонулат, анткени алардын кеңири маалымат топтому жана жогорку өлчөмдүү параметр мейкиндиктери.
Андан тышкары, ар бир жаңыртуу үчүн берилиштердин бир бөлүгүн эске алуу менен GD жана SGD экөөнүн тең артыкчылыктарын тең салмактаган кичи партия градиентинин түшүүсү сыяктуу вариациялар практикада көп колдонулат. Бул алгоритмдердин ортосундагы тандоо көбүнчө эсептөө ресурстарына, маалымат топтомунун көлөмүнө жана конкреттүү маселенин мүнөздөмөлөрүнө жараша болот.