Учитывая набор данных D={(X1,Y2),…,(XN,YN)}, например Xi и Yi непрерывны. Цель «линейной регрессии» — найти лучшую линию, соответствующую этим данным.
Другими словами, мы хотим создать модель:
y^=a∗0+a∗1.x∗1+⋯+a∗p.x_p
где p — количество размерностей переменной X.
В этой статье мы увидим, как решить эту проблему в трех сценариях:
Когда X одномерен, т.е. p=1.
Когда X многомерен, т.е. p>1.
Использование градиентного спуска.
X является одномерным (обычный наименьший квадрат).
Модель, которую мы хотим создать, имеет форму:
y^=a∗0+a∗1.x
Помните, что цель линейной регрессии — найти линию, которая лучше всего соответствует данным. Другими словами, нам нужно минимизировать расстояние между точками данных и линией.
(a∗0^,a∗1^)=(a∗0,a∗1)argmin∑∗i=1N(y∗i−y∗i^)2
=(a∗0,a∗1)argmin∑∗i=1N(y∗i−(a∗0+a∗1.x∗i))2
Давайте поставим:
L=∑∗i=1N(y∗i−(a∗0+a∗1.x_i))2
Чтобы найти минимум, нам нужно решить следующие уравнения:
В этом случае Xi больше не является действительным числом, а представляет собой вектор размера p:
X∗i=(X∗i1,X∗i2,…,X∗ip)
Итак, модель записывается следующим образом:
y^=a∗0+a∗1x∗1+a∗2x∗2+⋯+a∗px_p
или это можно записать в матричном формате:
Y^=X.W
где:
Y имеет форму (N,1).
X имеет форму (N,p).
W имеет форму (p,1): это вектор параметров (w1,w2,…,wp).
Как и в первом случае, мы стремимся минимизировать следующую величину:
W^=Wargmin∑∗i=1N(y∗i−y_i^)2
Еще раз поставим:
L=∑∗i=1N(y∗i−y_i^)2
=(Y−XW)T(Y−XW)
=YTY−YTXW−WTXTY+WTXTXW
=YTY−2WTXTY+WTXTXW
Поскольку мы хотим минимизировать L по отношению к W, мы можем игнорировать первый член «YTY», поскольку он не зависит от W, и давайте решим следующее уравнение:
∂W∂(−2WTXTY+WTXTXW)=0
−2XTY+2XTXW^=0
W^=(XTX)−1XTY
Использование градиентного спуска
Вот формулировка алгоритма градиентного спуска:
w∗n+1=w∗n−lr×∂w_n∂f
Теперь все, что нам нужно сделать, это применить его к двум параметрам a0 и a1 (в случае одной переменной X):
Преданный и сосредоточенный на вас. Мы помогаем вам понять, использовать и продемонстрировать свои новые мощные навыки посредством обзоров резюме, практики прохождения собеседований и отраслевых дискуссий.