Úvod
Predstavme si, že máme funkciu a chceli by sme nájsť jej minimum. Čo by si robil ?
Jednoduché že? Potrebujeme vyriešiť iba nasledujúcu rovnicu:
Ide o to, že nájsť vzorec nie je vždy ľahké, pretože má tendenciu byť extrémne komplikované, najmä v hlbokom učení, kde sa zaoberáme komplexnými funkciami. Musíme teda nájsť inú metódu, ktorá nám poskytne minimum funkcie bez toho, aby sme museli hľadať vzorec derivácie .
Vybudujme trochu intuície
Predpokladajme, že máme funkciu f s príslušným grafom:
Začnime s náhodným bodom . Cieľom je posunúť tento bod a priblížiť ho k tak, aby x*. Takže problém možno rozdeliť na dve časti:
-
Ktorým smerom by sme mali posunúť bod ? Ľavá alebo pravá ?
-
Koľko by sme to mali posunúť?
Smer
Budujme trochu intuície, aby sme odpovedali na prvú otázku. Pozrite sa na nasledujúci bod:
Poznač si to:
-
keď je bod napravo od optimálneho bodu , jeho dotyčnica ide hore.
-
keď je bod napravo od optimálneho bodu , jeho dotyčnica klesá.
Smer čiary je určený znamienkom jej sklonu:
-
Čiara stúpa sklon je pozitívny.
-
Čiara klesá sklon je negatívny.
Všimnite si, že: \
Sklon dotyčnice funkcie v určitom bode nie je väčší ako derivácia v tomto bode :
Takže ako odpoveď na otázku "Kam by sme sa mali presunúť ?":
-
napravo od Musíme posunúť doľava.
-
vľavo od Potrebujeme presunúť doprava.
Kroky
Teraz druhá otázka: Koľko by sme mali presunúť x_{0} ?
Pozrite si nasledujúce príklady:
Môžeme konštatovať, že:
-
je blízko => Sklon dotyčnice je malý => je malý.
-
je vzdialené od => Sklon dotyčnice je veľký => je veľký.
Zodpovedaním oboch otázok sme dospeli k záveru, že iba znalosť derivácie v bode nám môže poskytnúť veľa informácií o smere a vzdialenosti optimálneho bodu .
Gradientný zostup
Gradient zostup je formuláciou odpovedí na predchádzajúce dve otázky. Je to optimalizačný iteračný algoritmus, ktorý aproximuje minimum funkcie počnúc náhodným počiatočným bodom . Algoritmus je uvedený nasledovne:
kde:
-
nie je viac ako derivácia v bode .
-
je kladná konštanta, ktorá určuje, aké veľké kroky budú.
Všimni si:
-
je napravo od => => => sa posunie doľava.
-
je naľavo od => => => sa posunie doprava.
-
takmer => takmer => Malá aktualizácia .
Kvíz
-
Kedy sa zostup gradientu prestane opakovať:
-
Keď je dostatočne malý.
-
Keď sa blíži k .
-
Keď . XXX
– Ako vyberieme :
-
Vyberáme to náhodne. XXX
-
Berieme to v okolí .
-
Závisí to od problému.
-
Prečo potrebujeme gradientný zostup:
-
Pretože počítače nie sú dostatočne výkonné na výpočet derivácií.
-
Pretože je mimoriadne ťažké nájsť odvodené vzorce modelov hlbokého učenia. XXX
-
Pretože funkcie majú viac ako jedno lokálne minimum.