Gegee 'n datastel D={(X1,Y2),…,(XN,YN)} soos Xi en Yi is kontinu, Die doel van "Lineêre regressie" is om die beste lyn te vind wat by hierdie data pas.
Met ander woorde, ons wil die model skep:
y^=a∗0+a∗1.x∗1+⋯+a∗p.x_p
waar p die aantal dimensies van die veranderlike X is.
In hierdie artikel sal ons sien hoe om hierdie probleem in drie scenario's op te los:
Wanneer X eendimensioneel is, dit wil sê p=1.
Wanneer X multidimensioneel is, dit wil sê p>1.
Gebruik gradiënt afkoms.
X is eendimensioneel (gewone kleinste vierkant)
Die model wat ons wil skep, is van vorm:
y^=a∗0+a∗1.x
Onthou dat die doel van lineêre regressie is om die lyn te vind wat die beste by die data pas. Met ander woorde, ons moet die afstand tussen die datapunte en die lyn minimaliseer.
(a∗0^,a∗1^)=(a∗0,a∗1)argmin∑∗i=1N(y∗i−y∗i^)2
=(a∗0,a∗1)argmin∑∗i=1N(y∗i−(a∗0+a∗1.x∗i))2
Kom ons stel:
L=∑∗i=1N(y∗i−(a∗0+a∗1.x_i))2
Om die minimum te vind, moet ons die volgende vergelykings oplos:
In hierdie geval is Xi nie meer 'n reële getal nie, maar in plaas daarvan is dit 'n vektor van grootte p:
X∗i=(X∗i1,X∗i2,…,X∗ip)
Dus, die model is soos volg geskryf:
y^=a∗0+a∗1x∗1+a∗2x∗2+⋯+a∗px_p
of dit kan in 'n matriksformaat geskryf word:
Y^=X.W
waar:
Y het vorm (N,1).
X het vorm (N,p).
W het vorm (p,1): dit is die parameters vektor (w1,w2,…,wp).
Net soos die eerste geval, poog ons om die volgende hoeveelheid te minimaliseer:
W^=Wargmin∑∗i=1N(y∗i−y_i^)2
Kom ons stel weer:
L=∑∗i=1N(y∗i−y_i^)2
=(Y−XW)T(Y−XW)
=YTY−YTXW−WTXTY+WTXTXW
=YTY−2WTXTY+WTXTXW
Aangesien ons L met betrekking tot W wil minimaliseer, kan ons die eerste term "YTY" ignoreer omdat dit onafhanklik is van W en kom ons los die volgende vergelyking op:
∂W∂(−2WTXTY+WTXTXW)=0
−2XTY+2XTXW^=0
W^=(XTX)−1XTY
Gebruik gradiënt afkoms
Hier is die formulering van die gradiënt-afkomsalgoritme:
w∗n+1=w∗n−lr×∂w_n∂f
Al wat ons nou hoef te doen is om dit toe te pas op die twee parameters a0 en a1 (in die geval van 'n een veranderlike X):
Toegewyd en gefokus op jou. Ons help jou om jou kragtige nuwe vaardighede te verstaan, te benut en ten toon te stel deur CV-beoordelings, onderhoudspraktyke en bedryfsbesprekings.