Введение
Представьте, что у нас есть функция и мы хотим найти ее минимум. Что бы вы сделали ?
Просто, правда? Нам нужно всего лишь решить следующее уравнение:
Дело в том, что найти формулу не всегда легко, поскольку они, как правило, чрезвычайно сложны, особенно при глубоком обучении, где мы имеем дело со сложными функциями. Поэтому нам нужно найти другой метод, который сможет предоставить нам минимум функции без необходимости нахождения формулы производной .
Давайте потренируем интуицию
Предположим, что у нас есть функция f с соответствующим графиком:
Начнем со случайной точки . Цель состоит в том, чтобы переместить эту точку и сделать ее все ближе и ближе к так, чтобы x*. Итак, проблему можно разделить на две части:
-
В каком направлении нам следует переместить точку ? Влево или вправо ?
-
Насколько нам следует его переместить?
Направление
Давайте проявим интуицию, чтобы ответить на первый вопрос. Обратите внимание на следующий момент:
Обратите внимание, что:
-
когда точка находится справа от оптимальной точки , ее касательная направлена вверх.
-
когда точка находится справа от оптимальной точки , ее касательная идет вниз.
Направление линии определяется знаком ее наклона:
-
Линия идет вверх, , что наклон положителен.
-
Линия идет вниз, , что наклон отрицательный.
Обратите внимание: \
Наклон касательной функции в некоторой точке не больше, чем производная в этой точке :
Итак, ответ на вопрос "Куда нам переместить ?":
-
справа от Нам нужно переместить влево.
-
слева от Нам нужно переместить вправо.
Шаги
Теперь второй вопрос: На сколько нам следует переместить ?
Взгляните на следующие примеры:
Мы можем сделать вывод, что:
-
близок к => Наклон касательной мал => мал.
-
находится далеко от => Наклон касательной большой => большой.
Ответив на оба вопроса, мы пришли к выводу, что только знание производной в точке может дать нам много информации о направлении и расстоянии до оптимальной точки .
Градиентный спуск
Градиентный спуск — это формулировка ответов на два предыдущих вопроса. Это итерационный алгоритм оптимизации, который приближает минимум функции, начиная со случайной начальной точки . Алгоритм сформулирован следующим образом:
где:
-
не более чем производная от в точке .
-
— положительная константа, определяющая размер шагов.
Заметить, что:
-
находится справа от => => => перемещается влево.
-
находится слева от => => => перемещается вправо.
-
близко к => близко к => Небольшое обновление .
Викторина
-
Когда градиентный спуск прекращает итерацию:
-
Когда достаточно мал.
-
Когда близок к .
-
Когда . ХХХ
-
Как мы выбираем :
-
Мы выбираем его случайно. ХХХ
-
Возьмем его в окрестности .
-
Это зависит от проблемы.
-
Зачем нужен градиентный спуск:
-
Потому что компьютеры недостаточно мощны, чтобы рассчитывать производные.
— Потому что найти производные формулы моделей глубокого обучения крайне сложно. ХХХ
— Потому что функции имеют более одного локального минимума.