파이썬으로 다중회귀분석 수행하기 - (1) 다중회귀 분석의 기초

데이터과학 기초/통계

파이썬으로 다중회귀분석 수행하기 - (1) 다중회귀 분석의 기초

eigenvector 2022. 10. 1. 09:24

이전 시간의 공분산분석(ANCOVA)까지 합해서, 우리는 분산분석의 전반적인 기법들을 모두 훑어봤습니다.

분산분석은 전반적인 통계학 관점에서 보자면 특수한 형태의 회귀분석이라고 볼 수 있습니다.

하지만, 대부분의 교재/강의에서는 이를 분리해서 가르치기 때문에 오히려 헷갈리는 사람들이 많습니다.

오늘은 다중회귀분석에 대해 공부하기 위한 준비로써 분산분석과 다중회귀분석의 차이점을 중심으로 기초를 다져보겠습니다.

왜 다중회귀분석이 필요한가?

이전 시간에 분산분석을 설명하면서 "종속 변인에 대한 예측이 빗나가는데" 특정 요인이 미치는 영향을 보는 것이 목적이라고 설명했습니다.

(좀 더 구체적으로 보자면 그룹 기준으로 그룹간~Between과 그룹내~Within의 차이를 비교하는 것이지만 넘어갑시다)

그렇다면 다중회귀분석의 목적은 어디에 있을까요?

다중회귀 분석은 특정한 변수가 종속변인에 미치는 영향이라는 측면에서 공통점을 갖지만, "영향을 구체화" 합니다.

이전 설명에서 우리는 "영향을 미치는 것"만 통계로 확인하고 "어떤 영향을 주는지"에 대해서는 사후 분석(Post-Hoc)을 수행했습니다.

하지만, 다중회귀분석은 "얼마나 영향을 미치는지 방향과 정도"를 확인합니다.

방향 : 특정 변수의 증가 -> 종속변수의 증가(+) vs 특정변수의 증가 -> 종속변수의 감소(-)

정도 : 1단위 증가할 때 어느 정도로 종속변수가 증가하는가?

이런 특징 때문에, 다중회귀분석은 수많은 분야(특히 금융권에서!)에서 폭넓게 사용되고 있습니다.

우리는 통계를 통해 결과를 "예측"하는데 큰 가치를 두기 때문입니다.

예를 들어 볼까요?

금리는 물가에 영향을 미친다(관계) -> 금리가 x% 오를 때, 물가는 y% 상승한다 (예측)

소스의 당도는 소비자의 기분에 영향을 미친다(관계) -> 소스의 당도가 x만큼 상승하면, 소비자는 y만큼 만족도가 상승한다 (예측)

특히, "예측"의 측면에서 다중회귀분석은 현실의 복잡한 관계를 파악하는데 큰 장점을 갖습니다.

"종속변수에 영향을 미치는 여러 변수가 섞여 있을때, 각 변수의 영향력을 분리해서 파악할 수 있게 해 주는 것"이 다중회귀모형이 가진 강점이기 때문입니다.

(e.g. 매출을 늘리려고 할 때, 가장 퍼포먼스가 좋은 요인이 어떤 요인인가?)

* 잘 이해가 안간다면, 이전의 공분산 분석(ANCOVA)에 대한 설명을 곰곰이 생각해 보시길 바랍니다

2022.09.24 - [데이터과학 기초/통계] - 파이썬으로 공분산분석(ANCOVA) 수행하기

다중회귀 분석과 t값

우리는 다중회귀분석과 분산분석이 같은 뿌리를 갖지만, 다른 방향으로 향한다는 것을 알게 됐습니다.

이것은 어떤 차이로 나타날까요?

여러 차이가 있지만, 가장 큰 차이점은 F값과 t값의 차이로 볼 수 있습니다.

분산분석은 "(그룹 간 vs 내) 사이에 영향을 미치는 정도를 비교"하기 때문에 두 개의 자유도를 넣는 F값이 필요합니다.

다중회귀분석은 "특정한 변수가 미치는 영향력"을 비교하지만, 0과 비교하기 때문에 t값을 사용합니다.

(효과가 있으면 0과 다른 값이 나오고, 효과가 없다면 0과 다를게 없는 값이기 때문입니다)

구체적으로, 다중회귀 분석은 특정한 변수가 1증가할 때 종속 변수가 움직이는 정도가 영향이 없다고 판단되는 평균 지점(0)을 기준으로 얼마나 벗어나 있는지 확인한다고 볼 수 있습니다.

만약, 이해가 어렵다면 이전 포스팅을 참고해 주세요.

2022.08.14 - [데이터과학 기초/통계] - 파이썬으로 분산분석(ANOVA)하기 (1) - One Way (일원 분산분석)

2022.08.02 - [데이터과학 기초/통계] - 파이썬으로 단일표본 t-test 돌리기

분산분석과 다중회귀분석

지금까지 차이점을 유심히 확인했다면, 제가 말한 "두 분석은 같은 기초를 두고 있다"를 어렴풋이 이해할 수 있을 것입니다.

"특정한 변수"의 형태만 다를 뿐(카테고리 vs 연속형), "종속변수에 미치는 영향"이라는 중간 과정이 동일하기 때문입니다.

이런 관점에서 본다면, 여러 변수 중 연속형 변수를 포함한다는 측면에서 공분산 분석(ANCOVA)은 분산분석보다 다중회귀분석에 가깝다는 것을 어느 정도 이해할 수 있습니다.

기존 범주형 변수(카테고리)를 사용한 모델에 더해 연속형 변수의 영향력을 파악함으로써

"범주(카테고리)"의 영향력을 더 세밀하게 파악할 수 있지만(분산분석 관점)

해당 변수의 영향력을 구체적으로 설명하고 전체 모형의 예측 능력을 향상시킬 수 있기 때문입니다 (다중회귀분석 관점)

2022.09.24 - [데이터과학 기초/통계] - 파이썬으로 공분산분석(ANCOVA) 수행하기

* 더 깊은 관계를 확인하는 것은 약간의 학습이 필요합니다. 두 통계적 기법의 근간이 되는 선형 모형을 이해하는 데 있어 선형대수(linear algebra)에 대한 이해가 있어야 하기 때문입니다. 관심이 있다면, 해당 키워드로 검색을 하시면 되겠습니다.

정리

- 분산분석과 다중회귀 분석은 선형모형이라는 같은 기초를 갖는다

- 분산분석은 유의한 관계를, 다중회귀 분석은 정도와 방향을 파악한다

- 분산분석은 F값을, 다중회귀 분석은 t값을 사용한다