機械学習における勾配降下法と確率的勾配降下法

August 02, 2024に更新 1議事録を読みます

勾配降下法および確率的勾配降下法 (SGD) は、関数を最小化するために使用される最適化アルゴリズムであり、通常はモデル内の誤差の最小化に関連付けられます。

2 つの主な違いは次のとおりです。

勾配降下法 (GD)

標準の勾配降下法では、アルゴリズムは トレーニングデータセット全体を使用してコスト関数の勾配を計算します。
データセット全体の勾配の負の値に比例するステップを実行して、モデルパラメーターを更新します。
この方法では、(凸性や適切な学習率などの特定の条件が与えられた場合に) 最小限の収束が保証されますが、大規模なデータセットでは計算コストが高くなる可能性があります。

確率的勾配降下法 (SGD)

確率的勾配降下法では、アルゴリズムは 個々のトレーニング例 のコスト関数の勾配を使用してモデルパラメーターを更新します。
トレーニングサンプルの単一または小さなバッチに基づいて頻繁に更新を行うため、大規模なデータセットの勾配降下法よりもはるかに高速になります。
ただし、ノイズの多い更新のため、SGD にはより多くの変動があり、必ずしも絶対的な最小値に収束するとは限りません。最小値に近い領域に収束し、その周囲で振動します。

一方を他方よりも使用する場合:

勾配降下法 (GD): データセットが比較的小さく、メモリに収まる場合に適しています。コスト関数が滑らかで適切に動作する場合、GD は効率的に最小値に収束します。
確率的勾配降下法 (SGD): データセット全体の勾配の計算に計算コストがかかる 大規模なデータセットを扱う場合に推奨されます。また、更新時の SGD のノイズが浅い極小値を回避するのに役立つ可能性があるため、コスト関数に多くの極小値があるシナリオでも役立ちます。さらに、SGD は、その膨大なデータセットと高次元のパラメーター空間により、ニューラルネットワークのトレーニングによく使用されます。

さらに、更新ごとにデータのサブセットを考慮することで GD と SGD の両方の利点のバランスを取る ミニバッチ勾配降下法 などのバリエーションが実際によく使用されます。これらのアルゴリズムのどちらを選択するかは、多くの場合、計算リソース、データセットのサイズ、および特定の問題の特性に依存します。