Lineêre regressie

wiskunde
lineêre regressie
Lineêre regressie cover image

Inleiding

Gegee 'n datastel $D = {(X_{1}, Y_{2}), \dots,(X_{N}, Y_{N})}$ soos $X_{i}$ en $Y_{i }$ is kontinu, Die doel van "Lineêre regressie" is om die beste lyn te vind wat by hierdie data pas.

Met ander woorde, ons wil die model skep:

$$ \hat{y} = a*{0} + a*{1}.x*{1} + \dots + a*{p}.x_{p} $$

waar $p$ die aantal dimensies van die veranderlike $X$ is.

In hierdie artikel sal ons sien hoe om hierdie probleem in drie scenario's op te los:

  • Wanneer X eendimensioneel is, dit wil sê $p=1$.

  • Wanneer X multidimensioneel is, dit wil sê $p>1$.

  • Gebruik gradiënt afkoms.

$X$ is eendimensioneel (gewone kleinste vierkant)

Die model wat ons wil skep, is van vorm:

$$ \hat{y} = a*{0} + a*{1}.x $$

Onthou dat die doel van lineêre regressie is om die lyn te vind wat die beste by die data pas. Met ander woorde, ons moet die afstand tussen die datapunte en die lyn minimaliseer.

$$ (\hat{a*{0}}, \hat{a*{1}}) = \underset{(a*{0}, a*{1})}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - \hat{y*{i}})^2 $$

$$ = \underset{(a*{0}, a*{1})}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - (a*{0} + a*{1}.x*{i}))^2 $$

Kom ons stel:

$$ L = \sum\limits*{i=1}^{N} (y*{i} - (a*{0} + a*{1}.x_{i}))^2 $$

Om die minimum te vind, moet ons die volgende vergelykings oplos:

$$ \begin{cases} \frac{\partial L}{\partial a_{0}} = 0\ \frac{\partial L}{\partial a_{1}} = 0 \end{cases} $$

$$ \begin{cases} \sum\limits_{i=1}^{N} -2(y_{i} - (a_{0} + a_{1}.x_{i})) = 0\ \sum\limits_{i=1}^{N} -2x_{i}(y_{i} - (a_{0} + a_{1}.x_{i})) = 0 \end{cases} $$

Ons begin deur die eerste vergelyking te ontwikkel:

$$ \sum\limits_{i=1}^{N} y_{i} - \sum\limits_{i=1}^{N}a_{0} + \sum\limits_{i=1}^{N} a_{1}.x_{i} = 0\ $$

$$ \sum\limits_{i=1}^{N} y_{i} - Na_{0} + \sum\limits_{i=1}^{N} a_{1}.x_{i} = 0\ $$

$$ a_{0} = \frac{\sum\limits_{i=1}^{N} y_{i}}{N} - \frac{\sum\limits_{i=1}^{N} x_{i}}{N}a_{1} $$

$$ a_{0} = Y - Xa_{1} $$

Ons vervang in die tweede vergelyking:

$$ \sum\limits_{i=1}^{N} x_{i}(y_{i} - Y + Xa_{1} - a_{1}x_{i}) = 0 $$

$$ \sum\limits_{i=1}^{N} (y_{i} - Y) + a_{1}(X - x_{i}) = 0 $$

$$ \sum\limits_{i=1}^{N} (y_{i} - Y) - \sum\limits_{i=1}^{N}a_{1}(x_{i} - X) = 0 $$

$$ a_{1} = \frac{\sum\limits_{i=1}^{N} (y_{i} - Y)}{\sum\limits_{i=1}^{N}(x_{i} - X)} = \frac{\sum\limits_{i=1}^{N} (y_{i} - Y)(x_{i} - X)}{\sum\limits_{i=1}^{N}(x_{i} - X)^2} = \frac{COV(X, Y)}{VAR(X)} $$

Ons vervang terug in $a_{0}$:

$$ \begin{cases} a_{0} = Y - X\frac{COV(X, Y)}{VAR(X)}\ a_{1} = \frac{COV(X, Y)}{VAR(X)} \end{cases} $$

$X$ is multidimensioneel (gewone kleinste vierkant)

In hierdie geval is $X_{i}$ nie meer 'n reële getal nie, maar in plaas daarvan is dit 'n vektor van grootte $p$:

$$ X*{i} = (X*{i1},X*{i2},\dots,X*{ip}) $$

Dus, die model is soos volg geskryf:

$$ \hat{y} = a*{0} + a*{1}x*{1} + a*{2}x*{2} + \dots + a*{p}x_{p} $$

of dit kan in 'n matriksformaat geskryf word:

$$ \hat{Y} = X.W $$

waar:

  • $Y$ het vorm $(N, 1)$.

  • $X$ het vorm $(N, p)$.

  • $W$ het vorm $(p, 1)$: dit is die parameters vektor $(w_{1}, w_{2}, \dots, w_{p})$.

Net soos die eerste geval, poog ons om die volgende hoeveelheid te minimaliseer:

$$ \hat{W} = \underset{W}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - \hat{y_{i}})^2 $$

Kom ons stel weer:

$$ L = \sum\limits*{i=1}^{N} (y*{i} - \hat{y_{i}})^2 $$

$$ = (Y-XW)^{T}(Y-XW) $$

$$ = Y^TY-Y^TXW-W^TX^TY+W^TX^TXW $$

$$ = Y^TY-2W^TX^TY+W^TX^TXW $$

Aangesien ons $L$ met betrekking tot $W$ wil minimaliseer, kan ons die eerste term "$Y^TY$" ignoreer omdat dit onafhanklik is van $W$ en kom ons los die volgende vergelyking op:

$$ \frac{\partial (-2W^TX^TY+W^TX^TXW)}{\partial W} = 0 $$

$$ -2X^TY+2X^TX\hat{W} = 0 $$

$$ \hat{W} = (X^TX)^{-1}X^TY $$

Gebruik gradiënt afkoms

Hier is die formulering van die gradiënt-afkomsalgoritme:

$$ w*{n+1} = w*{n} - lr \times \frac{\partial f}{\partial w_{n}} $$

Al wat ons nou hoef te doen is om dit toe te pas op die twee parameters $a_{0}$ en $a_{1}$ (in die geval van 'n een veranderlike $X$):

$$ \begin{cases} a_{0}^{(n+1)} = a_{0}^{(n)} - lr \times \frac{\partial L}{\partial a_{0}}\ a_{1}^{(n+1)} = a_{1}^{(n)} - lr \times \frac{\partial L}{\partial a_{1}} \end{cases} $$

en ons weet dat:

$$ \begin{cases} \frac{\partial L}{\partial a_{0}} = \sum\limits_{i=1}^{N} -2(y_{i} - (a_{0} + a_{1}.x_{i}))\ \frac{\partial L}{\partial a_{1}} = \sum\limits_{i=1}^{N} -2x_{i}(y_{i} - (a_{0} + a_{1}.x_{i})) \end{cases} $$

Deur vervanging:

$$ \begin{cases} a_{0}^{(n+1)} = a_{0}^{(n)} + 2 \times lr \times \sum\limits_{i=1}^{N} (y_{i} - (a_{0}^{(n)} + a_{1}^{(n)}.x_{i}))\ a_{1}^{(n+1)} = a_{1}^{(n)} + 2 \times lr \times \sum\limits_{i=1}^{N} x_{i}(y_{i} - (a_{0}^{(n)} + a_{1}^{(n)}.x_{i})) \end{cases} $$

Vasvra

  • Wat is die formule van die optimale parametervektor in die geval van multidimensionele lineêre regressie:

  • $\frac{COV(X, Y)}{VAR(Y)}$

  • $\frac{COV(X, Y)}{VAR(X)}$

  • $(X^TX)^{-1}X^TY$ "korrek"

  • Hoekom plaas ons die afgeleide op 0?

  • Om die ekstremum te vind. "korrek"

  • Om die afgeleide te minimaliseer.

  • Om slegs die werklike deel van die afgeleide te behou.

  • Wat is die doel van lineêre regressie?

  • Om die lyn te vind wat by al die punte verbygaan.

  • Om die lyn te vind wat die data die beste beskryf."korrek"

  • Om die lyn te vind wat die data die beste skei.


Career Services background pattern

Loopbaandienste

Contact Section background image

Kom ons bly in kontak

Code Labs Academy © 2024 Alle regte voorbehou.