Lineaire regressie

wiskunde
lineaire regressie
Lineaire regressie cover image

Introductie

Gegeven een dataset $D = {(X_{1}, Y_{2}), \dots,(X_{N}, Y_{N})}$ zoals $X_{i}$ en $Y_{i }$ zijn continu. Het doel van "Lineaire regressie" is om de beste lijn te vinden die bij deze gegevens past.

Met andere woorden, we willen het model maken:

$$ \hat{y} = a*{0} + a*{1}.x*{1} + \dots + a*{p}.x_{p} $$

waarbij $p$ het aantal dimensies van de variabele $X$ is.

In dit artikel zullen we zien hoe we dit probleem in drie scenario’s kunnen oplossen:

  • Wanneer X eendimensionaal is, d.w.z. $p=1$.

  • Wanneer X multidimensionaal is, d.w.z. $p>1$.

  • Gebruik van gradiëntafdaling.

$X$ is eendimensionaal (gewoon kleinste kwadraat)

Het model dat we willen maken heeft een vorm:

$$ \hat{y} = a*{0} + a*{1}.x $$

Bedenk dat het doel van lineaire regressie is om de lijn te vinden die het beste bij de gegevens past. Met andere woorden, we moeten de afstand tussen de gegevenspunten en de lijn minimaliseren.

$$ (\hat{a*{0}}, \hat{a*{1}}) = \underset{(a*{0}, a*{1})}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - \hat{y*{i}})^2 $$

$$ = \underset{(a*{0}, a*{1})}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - (a*{0} + a*{1}.x*{i}))^2 $$

Laten we:

$$ L = \sum\limits*{i=1}^{N} (y*{i} - (a*{0} + a*{1}.x_{i}))^2 $$

Om het minimum te vinden, moeten we de volgende vergelijkingen oplossen:

$$ \begin{cases} \frac{\partial L}{\partial a_{0}} = 0\ \frac{\partial L}{\partial a_{1}} = 0 \end{cases} $$

$$ \begin{cases} \sum\limits_{i=1}^{N} -2(y_{i} - (a_{0} + a_{1}.x_{i})) = 0\ \sum\limits_{i=1}^{N} -2x_{i}(y_{i} - (a_{0} + a_{1}.x_{i})) = 0 \end{cases} $$

We beginnen met het ontwikkelen van de eerste vergelijking:

$$ \sum\limits_{i=1}^{N} y_{i} - \sum\limits_{i=1}^{N}a_{0} + \sum\limits_{i=1}^{N} a_{1}.x_{i} = 0\ $$

$$ \sum\limits_{i=1}^{N} y_{i} - Na_{0} + \sum\limits_{i=1}^{N} a_{1}.x_{i} = 0\ $$

$$ a_{0} = \frac{\sum\limits_{i=1}^{N} y_{i}}{N} - \frac{\sum\limits_{i=1}^{N} x_{i}}{N}a_{1} $$

$$ a_{0} = Y - Xa_{1} $$

We substitueren in de tweede vergelijking:

$$ \sum\limits_{i=1}^{N} x_{i}(y_{i} - Y + Xa_{1} - a_{1}x_{i}) = 0 $$

$$ \sum\limits_{i=1}^{N} (y_{i} - Y) + a_{1}(X - x_{i}) = 0 $$

$$ \sum\limits_{i=1}^{N} (y_{i} - Y) - \sum\limits_{i=1}^{N}a_{1}(x_{i} - X) = 0 $$

$$ a_{1} = \frac{\sum\limits_{i=1}^{N} (y_{i} - Y)}{\sum\limits_{i=1}^{N}(x_{i} - X)} = \frac{\sum\limits_{i=1}^{N} (y_{i} - Y)(x_{i} - X)}{\sum\limits_{i=1}^{N}(x_{i} - X)^2} = \frac{COV(X, Y)}{VAR(X)} $$

We vervangen dit terug in $a_{0}$:

$$ \begin{cases} a_{0} = Y - X\frac{COV(X, Y)}{VAR(X)}\ a_{1} = \frac{COV(X, Y)}{VAR(X)} \end{cases} $$

$X$ is multidimensionaal (gewoon kleinste kwadraat)

In dit geval is $X_{i}$ niet langer een reëel getal, maar in plaats daarvan is het een vector met de grootte $p$:

$$ X*{i} = (X*{i1},X*{i2},\dots,X*{ip}) $$

Het model is dus als volgt geschreven:

$$ \hat{y} = a*{0} + a*{1}x*{1} + a*{2}x*{2} + \dots + a*{p}x_{p} $$

of het kan in een matrixformaat worden geschreven:

$$ \hat{Y} = X.W $$

waar:

  • $Y$ heeft de vorm $(N, 1)$.

  • $X$ heeft de vorm $(N, p)$.

  • $W$ heeft de vorm $(p, 1)$: dit is de parametervector $(w_{1}, w_{2}, \dots, w_{p})$.

Net als in het eerste geval streven we ernaar de volgende hoeveelheid te minimaliseren:

$$ \hat{W} = \underset{W}{\operatorname{argmin}} \sum\limits*{i=1}^{N} (y*{i} - \hat{y_{i}})^2 $$

Laten we nogmaals stellen:

$$ L = \sum\limits*{i=1}^{N} (y*{i} - \hat{y_{i}})^2 $$

$$ = (Y-XW)^{T}(Y-XW) $$

$$ = Y^TY-Y^TXW-W^TX^TY+W^TX^TXW $$

$$ = Y^TY-2W^TX^TY+W^TX^TXW $$

Omdat we $L$ willen minimaliseren ten opzichte van $W$, kunnen we de eerste term "$Y^TY$" negeren omdat deze onafhankelijk is van $W$ en laten we de volgende vergelijking oplossen:

$$ \frac{\partial (-2W^TX^TY+W^TX^TXW)}{\partial W} = 0 $$

$$ -2X^TY+2X^TX\hat{W} = 0 $$

$$ \hat{W} = (X^TX)^{-1}X^TY $$

Gradiëntafdaling gebruiken

Hier is de formulering van het algoritme voor gradiëntafdaling:

$$ w*{n+1} = w*{n} - lr \times \frac{\partial f}{\partial w_{n}} $$

Nu hoeven we het alleen maar toe te passen op de twee parameters $a_{0}$ en $a_{1}$ (in het geval van één variabele $X$):

$$ \begin{cases} a_{0}^{(n+1)} = a_{0}^{(n)} - lr \times \frac{\partial L}{\partial a_{0}}\ a_{1}^{(n+1)} = a_{1}^{(n)} - lr \times \frac{\partial L}{\partial a_{1}} \end{cases} $$

en wij weten dat:

$$ \begin{cases} \frac{\partial L}{\partial a_{0}} = \sum\limits_{i=1}^{N} -2(y_{i} - (a_{0} + a_{1}.x_{i}))\ \frac{\partial L}{\partial a_{1}} = \sum\limits_{i=1}^{N} -2x_{i}(y_{i} - (a_{0} + a_{1}.x_{i})) \end{cases} $$

Door vervanging:

$$ \begin{cases} a_{0}^{(n+1)} = a_{0}^{(n)} + 2 \times lr \times \sum\limits_{i=1}^{N} (y_{i} - (a_{0}^{(n)} + a_{1}^{(n)}.x_{i}))\ a_{1}^{(n+1)} = a_{1}^{(n)} + 2 \times lr \times \sum\limits_{i=1}^{N} x_{i}(y_{i} - (a_{0}^{(n)} + a_{1}^{(n)}.x_{i})) \end{cases} $$

Quiz

  • Wat is de formule van de optimale parametervector in het geval van multidimensionale lineaire regressie:

  • $\frac{COV(X, Y)}{VAR(Y)}$

  • $\frac{COV(X, Y)}{VAR(X)}$

  • $(X^TX)^{-1}X^TY$ "juist"

  • Waarom zetten we de afgeleide op 0?

  • Om het uiterste te vinden. "juist"

  • Om de afgeleide te minimaliseren.

  • Alleen het reële deel van de afgeleide behouden.

  • Wat is het doel van lineaire regressie?

  • Om de lijn te vinden die langs alle punten loopt.

  • Om de regel te vinden die de gegevens het beste beschrijft."correct"

  • Om de lijn te vinden die de gegevens het beste scheidt.


Career Services background pattern

Carrièrediensten

Contact Section background image

Laten we in contact blijven

Code Labs Academy © 2024 Alle rechten voorbehouden.