단순선형회귀모델을 만들기 위한 좋은 특성 / OLS
단순선형회귀모델을 만들기 위한 좋은 특성
단순선형회귀모델을 만들기 위한 좋은 특성을 선택하기 위해 고려해야 하는 사항들에 대하여 조사해보도록 하겠다
분석 데이터가 4가지 기본가정 만족하는 경우, 선형 회귀분석을 통해 좋은 모델을 만들 수 있다.
(1) 선형성
(2) 독립성
(3) 등분산성
(4) 정규성
구체적인 설명은 다음과 같다
(1) 선형성
"선형" 회귀분석에서 예측하고자 하는 종속변수 y와 독립변수 x 간에 선형성을 만족하는 특성을 의미한다.
"비선형" 회귀분석에서는 해당하지 않는다.
< 가진 변수 중 일부가 선형성을 만족하지 않는 경우 대처방법 >
- 다른 새로운 변수를 추가
- 로그, 지수, 루트 등 변수 변환을 취하기(비추천)
- 아예 선형성을 만족하지 않는 변수를 제거
- 일단 선형 회귀모델을 만들고 변수 선택법을 통과시키기(추천)
등 여러 가지 방법이 있다.
(2) 독립성
독립성이란, 독립변수 x 간에 상관관계가 없이 독립성을 만족하는 특성을 의미한다.
(다중 회귀분석은 x변수가 2개 이상인 회귀분석이다.)
독립변수간 상관성이 있는 경우(다중공선성)
Ridge Regression, lasso Regression, Partial least Square regression, PCR ..
(3) 등분산성
등분산성이란 분산이 같다는 것이고, 분산이 같다는 것은 잔차가 특정한 패턴 없이 고르게 분포했다는 의미이다.
(만일 잔차가 점점 커지거나, 작아진다거나하는 패턴을 보이면 좋지 않다.)
(4) 정규성
정규성은 또한 잔차가 정규분포를 이뤄야 한다
정규분포가 아닌경우: Generalized linear Mode(GLM)
최소자승법 (OLS : Ordinary Least Squares)
선형 회귀 모델의 파라미터 추정 기법 중 하나로,
RSS를 최소화하는 가중치 벡터를 구하는 방법이다.
잔차제곱합(RSS)를 최소화하는 오차가 유한한 분산을 가지며,
오차가 독립 변수와 연관되어 있지 않다면 추정은 일관성 있다
쉽게말해 오차의 제곱의 합을 최소화하는 기법
잔차제곱합(RSS: Residual Sum of Squares)
RSS는 오차(잔차)의 합(비용함수라고 부름)으로 하기 식으로 표현될 수 있는데,
RSS를 최소화하는 a와 b의 y=ax + b 모델을 찾는데 그 목적이 있다.
이 경우 RSS의 기울기가 0 이 되는 점의 값을 찾아내면 된다.
미지수가 a와 b이므로, 편미분을 진행하여 값을 도출한다. 각각 미분값이 0 인 방정식으로 계산하면 된다.
알파에 대해 미분하고, 베타에 대해 미분하여 도출된 산식은 최종적으로 다음과 같이 행렬로 정리하여,
그 기울기와 d인터셉트를 확인할 수 있다.
단어 뜻
OLS: 최소자승법 (Ordinary Least Squares)
RSS: 잔차제곱합 (Residual Sum of Squares)
MAE: 평균절대오차 (Absolute Error). 측정값에서 오차의 크기