勾配降下法
September 03, 2024に更新 2議事録を読みます

## 導入
関数 $f(x)$ があり、その最小値を見つけたいと想像してください。あなたならどうしますか ?
シンプルですよね?次の方程式を解くだけで済みます。
$$f’(x) = 0$$
問題は、$f’$ の式を見つけるのが必ずしも簡単ではないということです。特に、複雑な関数を扱う深層学習では、式は非常に複雑になる傾向があるためです。したがって、導関数 $f’$ の公式を見つける必要なく関数の最小値を提供できる別の方法を見つける必要があります。
直感を鍛えてみましょう
対応するグラフを持つ関数 f があると仮定しましょう。
ランダムな点 $x_{0}$ から始めましょう。目標は、この点を移動して $f’($x*$) = 0$ になるように $x*$ にどんどん近づけることです。したがって、問題は 2 つの部分に分けることができます。
-
点 $x$ をどちらの方向に移動すればよいでしょうか?左か右 ?
-
どのくらい動かせばいいですか?
方向
最初の質問に答えるために、直感を養いましょう。次の点を見てください。
ご了承ください:
-
点 $x_{0}$ が最適点 $x*$ の右側にある場合、その接線は上になります。
-
点 $x_{0}$ が最適点 $x*$ の右側にある場合、その接線は下に下がります。
線の方向は、その傾きの符号によって決まります。
-
線が上昇する $\暗示$ 傾き $a$ は 正です。
-
線が下に向かう $\暗示$ する傾き $a$ は 負です。
次の点に注意してください: \
特定の点 $x_{0}$ における関数の接線の傾きは、その点 $f’(x_{0})$ における導関数以上のものではありません。
$$ tangent(x*{0}): g(x) = f’(x*{0}).(x-x*{0}) + f(x*{0}) $$
「$x_{0}$ をどこに移動すればよいですか?」 という質問に対する答えとしては、次のようになります。
-
$f’(x_{0}) < 0$ $\implies$ $x_{0}$ を $x*$ $\implies$ の右側に $x_{0}$ を左側に移動する必要があります。
-
$f’(x_{0}) > 0$ $\implies$ $x_{0}$ を $x*$ $\implies$ の左に $x_{0}$ を右に移動する必要があります。
手順
次に 2 番目の質問です。$x_{0}$ をどのくらい移動する必要がありますか?
次の例を見てください。
次のように結論付けることができます。
-
$x_{0}$ が $x*$ に近い => 接線の傾きが小さい => $f’(x_{0})$ が小さい。
-
$x_{0}$ は $x*$ から遠い => 接線の傾きが大きい => $f’(x_{0})$ が大きい。
両方の質問に答えることで、点 $x_{0}$ の導関数を知ることによってのみ、最適な点 $x_{0}$ の方向と距離について多くの洞察が得られるという結論に達しました。
勾配降下法
勾配降下法は、前の 2 つの質問の答えを定式化したものです。これは、ランダムな初期点 $x_{0}$ から開始して関数の最小 $x*$ を近似する最適化反復アルゴリズムです。アルゴリズムは次のように記述されています。
$$ x*{n+1} = x*{n} - lr \times \frac{\mathrm{d} f}{\mathrm{d} x_{n}} $$
どこ:
-
$ \frac{\mathrm{d} f}{\mathrm{d} x*{n}} $ は、点 $x*{n}$ における $f$ の導関数にすぎません。
-
$lr$ は、ステップの大きさを決定する正の定数です。
次の点に注意してください。
-
$x_{n}$ は $x*$ の右側 => $\frac{\mathrm{d} f}{\mathrm{d} x_{n}} > 0 $ => $ x_{n+ 1} = x_{n} - 正の $ => $x_{n}$ は左に移動します。
-
$x_{n}$ は $x*$ の左側 => $\frac{\mathrm{d} f}{\mathrm{d} x_{n}} < 0$ => $ x*{n +1} = x*{n} + 正の $ => $x_{n}$ は右に移動します。
-
$x_{n}$ が $x*$ に近づく => $\frac{\mathrm{d} f}{\mathrm{d} x_{n}}$ が $0$ に近づく => $x_{ を小規模に更新n}$。
クイズ
-
勾配降下法が反復を停止するのはいつですか:
-
$x_{n}$ が十分に小さい場合。
-
$x_{n}$ が $x_{0}$ に近いとき。
-
$\frac{\mathrm{d} f}{\mathrm{d} x_{n}} = 0 $の場合。 XXX
-
$x_{0}$ を選択するにはどうすればよいですか:
-
ランダムに選択します。 XXX
-
$x{n}$ 付近で取得します。
-
それは問題によって異なります。
-
勾配降下法が必要な理由:
-
コンピューターは微分を計算するほど強力ではないため。
-
深層学習モデルの導関数式を見つけるのは非常に難しいため。 XXX
-
関数には複数の極小値があるため。