Binigyan ng dataset na D={(X1,Y2),…,(XN,YN)} gaya ng Xi at Yi ay tuluy-tuloy, Ang layunin ng "Linear Regression" ay mahanap ang pinakamahusay na linya na akma sa data na ito.
Sa madaling salita, gusto naming lumikha ng modelo:
y^=a∗0+a∗1.x∗1+⋯+a∗p.x_p
kung saan ang p ay ang bilang ng mga sukat ng variable na X.
Sa artikulong ito makikita natin kung paano lutasin ang problemang ito sa tatlong sitwasyon:
Kapag ang X ay isang dimensional i.e. p=1.
Kapag ang X ay multi-dimensional i.e. p>1.
Paggamit ng gradient descent.
Ang X ay isang dimensyon (Ordinary Least Square)
Ang modelo na gusto nating likhain ay may hugis:
y^=a∗0+a∗1.x
Tandaan na ang layunin ng linear regression ay mahanap ang linyang pinakaangkop sa data. Sa madaling salita, kailangan nating i-minimize ang distansya sa pagitan ng mga punto ng data at linya.
(a∗0^,a∗1^)=(a∗0,a∗1)argmin∑∗i=1N(y∗i−y∗i^)2
=(a∗0,a∗1)argmin∑∗i=1N(y∗i−(a∗0+a∗1.x∗i))2
Ilagay natin:
L=∑∗i=1N(y∗i−(a∗0+a∗1.x_i))2
Upang mahanap ang pinakamababa, kailangan nating lutasin ang mga sumusunod na equation:
Ang X ay multi-dimensional (Ordinary Least Square)
Sa kasong ito, ang Xi ay hindi na isang tunay na numero, ngunit sa halip ito ay isang vector na may sukat na p:
X∗i=(X∗i1,X∗i2,…,X∗ip)
Kaya, ang modelo ay nakasulat bilang sumusunod:
y^=a∗0+a∗1x∗1+a∗2x∗2+⋯+a∗px_p
o, maaari itong isulat sa isang matrix na format:
Y^=X.W
saan:
Y ay may hugis na (N,1).
Ang X ay may hugis na (N,p).
Ang W ay may hugis na (p,1): ito ang mga parameter na vector (w1,w2,…,wp).
Katulad ng unang kaso, nilalayon naming bawasan ang sumusunod na dami:
W^=Wargmin∑∗i=1N(y∗i−y_i^)2
Muli nating ilagay:
L=∑∗i=1N(y∗i−y_i^)2
=(Y−XW)T(Y−XW)
=YTY−YTXW−WTXTY+WTXTXW
=YTY−2WTXTY+WTXTXW
Dahil gusto nating bawasan ang L na may kinalaman sa W, maaari nating balewalain ang unang terminong "YTY" dahil ito ay independiyente sa W at lutasin natin ang sumusunod na equation:
∂W∂(−2WTXTY+WTXTXW)=0
−2XTY+2XTXW^=0
W^=(XTX)−1XTY
Paggamit ng gradient descent
Narito ang pagbabalangkas ng gradient descent algorithm:
w∗n+1=w∗n−lr×∂w_n∂f
Ngayon ang kailangan lang nating gawin ay ilapat ito sa dalawang parameter na a0 at a1 (sa kaso ng isang variable na X):
Dedicated at nakatutok sayo. Tinutulungan ka naming maunawaan, gamitin at ipakita ang iyong makapangyarihang mga bagong kasanayan sa pamamagitan ng mga pagsusuri sa resume, pagsasanay sa pakikipanayam at mga talakayan sa industriya.
May mabilis na tanong tungkol sa kung ano ang ginagawa namin, o ilang feedback tungkol sa isang kaganapan para sa amin? Gusto naming marinig mula sa iyo.