-
[부록] 최소제곱법 공식 유도② 단순회귀모형Data Science/부록 2020. 10. 17. 21:56반응형
이전 글에서 최소제곱법으로 구한 추정량을 유도했는데, 이번에는 단순회귀모형으로 해보려고 한다.
단순회귀모형이나 다중회귀모형이나 기본적인 아이디어는 같다. 다만 단순회귀에 비해 다중회귀는 변수가 조금 많다보니 행렬로 표기할 뿐이다.
우선 단순회귀모형은 다중회귀모형과 달리 설명변수를 하나만 사용하는 모형이다. 식은 아래와 같이 생겼다.
$$ y_i = \alpha + \beta x_i + u_i \qquad i = 1, 2, \cdots , N$$
표본크기는 $N$개라고 가정했다. $y$는 종속변수(Dependant Variable), $x$는 설명변수(Explanatory Variable), $u$는 오차항(Error Term, Unobservable Factor)을 말한다.
선형식에서 일반적으로 상수항을 통제하는 게 일반적인데, 통제하지 않아도 되기는 한다. 그럴 경우 $y_i = \beta x_i + u_i$를 선형식으로 가정한다는 의미이다. 다만 이 경우는 $\alpha = 0$을 가정했다는 의미인데, 굳이 이런 가정을 할 이유는 없다. 추정한 결과 $\alpha = 0$일 수는 있지만 굳이 이걸 가정하고 추정을 할 필요는 없다. 아무튼 우리는 상수항도 통제하는 일반적인 선형식을 전제한다고 하자.
OLS(Ordinary Least Square; 최소제곱법) 추정량을 구하기 위해 오차항을 제곱해주자. 오차항은 아래와 같이 생겼다.
$$ u_i = y_i - \alpha - \beta x_i $$
따라서 제곱하면 아래와 같은 식이 나온다.
$$ u_{i}^{2} = (y_i - \alpha - \beta x_i)^{2}$$
오차항의 제곱이 총 $N$개가 있는 상황인데 어느 한 관측치의 오차제곱만 작으면 별 의미가 없다.
최소제곱법(Ordinary Least Square; OLS)은 왜 하는걸까에서 말한 것처럼 진리에 대해 대충 또는 적당히 세운 우리의 식이 말이 되려면 오차가 가능하면 적어야 하고, 그러려면 전반적인 오차의 크기가 작다고 주장해야 한다. 그러려면 '오차항의 크기를 다 더해보니 그 크기가 작더라'라고 주장해야 할테니 오차항의 제곱을 다 더해야 한다.
$$ \sum_{i=1}^{N}u_{i}^{2} = \sum_{i=1}^{N}(y_i - \alpha - \beta x_i)^{2} $$
이제 이 식을 작게 만들어주는 $\alpha$, $\beta$를 고르면, 말이 된다고 할 수 있다. 그 때의 $\alpha, \beta$를 각각 $\hat{\alpha}, \hat{\beta}$라고 하자. 즉 아래 식이 성립해야 한다.
$$\frac{\partial}{\partial \alpha}\sum_{i=1}^{N}u_{i}^{2} \Bigr|_{\substack{\alpha=\hat{\alpha} \\ \beta = \hat{\beta} }} = 0$$
$$\frac{\partial}{\partial \beta}\sum_{i=1}^{N}u_{i}^{2} \Bigr|_{\substack{\alpha = \hat{\alpha} \\ \beta=\hat{\beta}}} = 0$$
자 이제 미분을 해보면 된다. 우선 $\alpha$에 대해서 먼저 미분을 하면 아래와 같은 식이 나온다.
$$ \frac{\partial}{\partial \alpha}\sum_{i=1}^{N}u_{i}^{2} = \frac{\partial}{\partial \alpha}\sum_{i=1}^{N}(y_i - \alpha - \beta x)^{2} $$
$$ \Longleftrightarrow \sum_{i=1}^{N} -2(y_i - \hat{\alpha} -\hat{\beta} x_i) = 0 $$
$$ \Longleftrightarrow \sum_{i=1}^{N}(y_i - \hat{\alpha} - \hat{ \beta} x_i) = 0 $$
$$ \Longleftrightarrow N\hat{\alpha} = \sum_{i=1}^{N}(y_i -\hat{\beta}x_i) $$
$$ \hat{\alpha} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{\beta}x_i) $$
$$ \therefore \quad \quad \hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}, \qquad where \quad \bar{x} = \frac{1}{N}\sum_{i=1}^{N}x_i, \quad \quad \bar{y} = \frac{1}{N}\sum_{i=1}^{N}y_i $$
$\bar{x}$, $\bar{y}$는 간단히 말해서 $x$, $y$의 표본평균을 말한다. $\hat{\alpha}$를 구하는 식에 $\hat{\beta}$가 들어가 있다. 따라서 $\hat{\beta}$를 구해야 한다. 마찬가지로 오차항의 제곱합을 $\beta$에 대해서 미분하면 된다.
$$ \frac{\partial}{\partial \beta}\sum_{i=1}^{N}u_{i}^{2} = \frac{\partial}{\partial \beta}\sum_{i=1}^{N}(y_i - \alpha - \beta x_i)^{2} $$$$ \Longleftrightarrow \sum_{i=1}^{N} -2(y_i - \hat{\alpha} - \hat{\beta} x_i)x_i = 0 $$
$$ \Longleftrightarrow \sum_{i=1}^{N} (y_i - \hat{\alpha} - \hat{\beta} x_i)x_i = 0 $$$$ \Longleftrightarrow \sum_{i=1}^{N}x_{i} y_{i} -\hat{\alpha}\sum_{i=1}^{N}x_i = \hat{\beta}\sum_{i=1}^{N}x_{i}^{2} $$
$\hat{\alpha} = \bar{y} - \hat{\beta}\bar{x}$이므로 이걸 대입해서 정리하면 아래와 같다.
$$ \sum_{i=1}^{N}x_{i} y_{i} - (\bar{y} - \hat{\beta}\bar{x})\sum_{i=1}^{N} x_i = \hat{\beta}\sum_{i=1}^{N}x_{i}^{2} $$
$$ \sum_{i=1}^{N}x_i y_i - \sum_{i=1}^{N}x_i\bar{y} = \hat{\beta}(\sum_{i=1}^{N}x_{i}^{2} - \sum_{i=1}^{N}x_i\bar{x}) $$
각각의 합계($\sum$)을 정리하면 다음과 같다.
$$\sum_{i=1}^{N}x_i(y_i - \bar{y}) = \hat{\beta}\sum_{i=1}^{N}x_{i}(x_{i} - \bar{x}) $$
양변을 $\sum_{i=1}^{N}x_{i}(x_{i} - \bar{x})$로 나누면 $\hat{\beta}$는 다음과 같다.
$$ \hat{\beta} = \frac{ \sum_{i=1}^{N}x_{i}(y_i -\bar{y})}{ \sum_{i=1}^{N}x_{i}(x_{i} - \bar{x}) } $$
이 때 $\sum_{i=1}^{N}x_i(y_i - \bar{y}) $는 $\sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y})$와 같고, $\sum_{i=1}^{N}x_i(x_i - \bar{x})$는 $\sum_{i=1}^{N}(x_i - \bar{x})(x_i - \bar{x})$과 같다. 따라서 정리하면 아래와 같다.
$$\hat{\beta} = \frac{ \sum_{i=1}^{N}(x_i - \bar{x})(y_i - \bar{y}) }{ \sum_{i=1}^{N}(x_i - \bar{x})^{2} } $$반응형'Data Science > 부록' 카테고리의 다른 글
[부록] 뉴턴랩슨법 구현 (2) 2020.10.23 [부록] 최소제곱법 공식 유도① 다중회귀모형 (0) 2020.09.10