해당 글은 개인적으로 회사에서 업무를 하면서 느낀 내용에 대하여 경험적인 측면에 따라 작성되었습니다.
일부 내용에 오류가 있을 수 있습니다.
1. 시작하며
회사에서는 배터리의 성능을 고도화하기 위해, 성능지표와 앞쪽 공정에서의 나온 Feature과의 관계들을 확인하는 작업들을 종종 하곤 합니다. 그때마다, 엑셀에서 흔히 사용하는 추세선의 R-squred 값을 통해, 두 변수 간의 관계성을 확인합니다. 해당 시점에서의 나온 추세선은 Scatter plot을 가장 잘 나타내는 선형회귀식이고, 이를 활용하여 결정계수의 제곱근을 하여, 두 변수 간의 상관계수를 구할 수 있습니다. 그렇게 구해진 상관계수와 N의 값을 통해, 상관있음에 대한 가설검정을 진행하고 이를 받아들일지 판단하게 됩니다.
이러한 과정 중 의문점이 드는 부분이 있었습니다. 첫 번째, 독립변수 1개와 종속변수 1개간의 상관계수의 제곱은 결정계수와 동일한 값을 가지지만, 여러 개의 독립변수가 개입되는 경우에는 동일한 결정계수를 사용하는 것이 맞을지? 두 번째, 샘플 수가 증가할 수록 상관계수의 값이 낮아져도 p-value가 유의 수준보다 낮아지는 데 이를 기반으로 대립가설을 채택하는 것이 맞을까? 에 대해서 한번 살펴보고자 합니다.
2. 상관계수와 결정계수와의 관계
우선, 두 관계를 설명하기 전에 각각의 값이 어떤 것을 뜻하는 지 알아보겠습니다.
상관계수(correlation coefficient)

상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 수치적으로 나타낸 수치이며, 범위는 -1 ~ 1 사이에 속하며, -1에 가까울수록 음의 강한 상관관계를 나타내며, 1에 가까울수록 양의 강한 상관관계를 나타냅니다. 0인 경우에는 관계가 없다고 표현할 수 있습니다. 상관 계수의 종류에는 피어슨 상관 계수, 스피어만 상관 계수, 켄달 타우 상관 계수 등이 존재합니다.
결정계수(Coefficient of Determination)

결정계수는 쉽게 모델의 설명력을 표현하는 지표로 활용합니다. 그래서 수식을 보면 y값으로 표현되어 있는데, 보통 주어진 데이터를 기반으로 모델링을 진행해서, 예측한 값들과 실제 값의 차이를 활용하여 구할 수 있습니다. 수식을 풀어서 설명해 보면, 관측치의 평균값으로 모델을 예측한 오차의 분산과 우리가 만든 모델의 예측 오차의 분산을 비율로 표현하여 1에서 비율을 빼줍니다. 단순히 평균으로 모델을 구성했을 때에 비해 분산이 얼마나 감소하는지 확인할 수 있습니다.
그렇다면 두 개는 어떤 관계를 가지고 있을까요? 독립변수와 종속변수가 1개씩 인 경우라고 했을 때에는 상관계수(r)에 제곱한 값은 결정 계수의 값과 동일한 값을 가지게 됩니다.
독립변수가 여러 개인 경우 모델링했을 때, R-squared 는 왜 증가하는가?
그 이유는 수식을 간단하게 살펴보면 알 수 있습니다. 위의 수식에서 분모에 해당하는 값은 SST(총 제곱합)은 전체 변동성을 뜻하는데, 해당 값은 고정되어 있는 값을 가지게 됩니다. 반면, 분자에 해당하는 값은 SSR(제곱합 잔차)은 모델이 설명하지 못한 변동성으로 독립변수를 추가할수록 SSR이 감소하게 됩니다. 독립변수가 추가되게 되면, 모델이 설명하지 못하는 영역에 대한 변동성이 감소하게 됩니다. 왜냐하면 더 많은 정보를 가지게 되기 때문이죠. 그러므로, 이전 모델에 비해 더 좋은 모델이 만들어지게 되고, 그렇게 되었을 때, R-squared 값이 증가하게 되는 것입니다. 하지만, 의미없는 독립변수가 추가되었을 때에도 R-squared 값이 증가하게 되어 모델이 과적합되거나 객관적인 값을 가지지 못하게 되므로, 모델 평가에 R-squared보다는 Adjusted R-squared라는 결정계수를 사용하는 것이 더 좋습니다.
Adjusted R-squared

수정된 결정계수의 경우에는 (n-1/n-k-1)의 값을 곱하게 되는데, 여기서 n은 샘플 수, k는 독립 변수의 수를 의미합니다. 그러면 왜 (n-1)/(n-k-1)의 값을 곱하게 되는 지 확인해 보면, 우선 n-1은 전체 모델의 자유도를 의미하고 n-k-1은 모델이 사용하는 자유도로, 독립변수와 상수항이 회귀 계수를 추정하기 위해 소모하는 자유도를 뜻합니다. 그래서 해당 비율을 곱해줌으로써 모델이 k값에 의해 증가하는 값에 대한 보정을 해준다고 보시면 될 것 같습니다. 그래서 실제로 추가된 독립변수가 유의미한 경우에만 Adjusted R-squared값이 증가하게 됩니다.
3. 샘플 수가 증가할 수록 상관계수가 낮아져도 P-value는 왜 유의미하다고 나오는가?
상관계수의 유의성 검정
우선 상관관계의 유의성 검정을 진행하기 위해서는 귀무가설과 대립가설을 설정해야 합니다. 귀무가설은 두 변수 간의 상관관계가 없다. 대립가설은 두 변수 간의 상관관계가 있다.로 설정할 수 있습니다. 상관계수의 값(피어슨 상관계수)을 바탕으로 t-통계량을 계산합니다.

위에서 r은 피어슨 상관계수, n은 샘플 수를 뜻합니다. 위에서 n-2의 값인 이유는 상관관계를 추정하기 위해 두 개의 변수가 필요하기 때문에 각각의 하나의 자유도를 뺀 n-2가 됩니다. 여기서 얻어진 t값을 통해서 p-value를 계산하게 되고, 이러한 과정을 통해 두 변수 간의 상관관계의 유무를 판단하게 됩니다.
샘플 수와 p-value의 관계
기본적으로 샘플 수가 증가하게 되면, n-2 자유도 값은 증가하게 될 것이고, 그러면 상관계수의 추정 정확도가 높아지고, t 통계량 값이 증가하게 되면서 p-value가 감소하게 됩니다. 극단적인 예시로는 r=0.04일 때 p-value가 0.05보다 작아지는 샘플 수는 2403개보다 커지는 시점에서 대립가설을 채택하게 됩니다. 이처럼, 샘플 수의 증가가 가설 검정에 큰 영향을 줄 수 있습니다. 단순히 가설검정을 통한 통계적 유의성만 살펴보기보단, 실질적으로 의미가 있는 요소인지에 대해 한번 정도 검토해 볼 필요가 있을 것 같습니다.
4. 정리하기
- 상관계수와 결정계수는 독립변수 1개, 종속변수가 1개 인 상황에서 동일한 값을 가지게 됩니다.
- 독립변수가 증가하면, 결정계수의 값도 같이 증가하게 되며, 과적합의 위험이 있습니다.
- 독립변수의 값의 증가에 따른 결정계수 보정을 위해 수정된 결정계수로 추가되는 변수에 대한 효과를 확인할 수 있습니다.
- 상관계수의 유의성 검정을 진행할 때에는 샘플 수가 증가하면 t-통계량도 같이 증가하게 되므로, r값이 낮아도 귀무가설을 기각할 수 있으므로, 실질적으로 의미가 있는 요소인지 살펴볼 필요가 있습니다.
해당 글은 개인적으로 회사에서 업무를 하면서 느낀 내용에 대하여 경험적인 측면에 따라 작성되었습니다.
일부 내용에 오류가 있을 수 있습니다.
1. 시작하며
회사에서는 배터리의 성능을 고도화하기 위해, 성능지표와 앞쪽 공정에서의 나온 Feature과의 관계들을 확인하는 작업들을 종종 하곤 합니다. 그때마다, 엑셀에서 흔히 사용하는 추세선의 R-squred 값을 통해, 두 변수 간의 관계성을 확인합니다. 해당 시점에서의 나온 추세선은 Scatter plot을 가장 잘 나타내는 선형회귀식이고, 이를 활용하여 결정계수의 제곱근을 하여, 두 변수 간의 상관계수를 구할 수 있습니다. 그렇게 구해진 상관계수와 N의 값을 통해, 상관있음에 대한 가설검정을 진행하고 이를 받아들일지 판단하게 됩니다.
이러한 과정 중 의문점이 드는 부분이 있었습니다. 첫 번째, 독립변수 1개와 종속변수 1개간의 상관계수의 제곱은 결정계수와 동일한 값을 가지지만, 여러 개의 독립변수가 개입되는 경우에는 동일한 결정계수를 사용하는 것이 맞을지? 두 번째, 샘플 수가 증가할 수록 상관계수의 값이 낮아져도 p-value가 유의 수준보다 낮아지는 데 이를 기반으로 대립가설을 채택하는 것이 맞을까? 에 대해서 한번 살펴보고자 합니다.
2. 상관계수와 결정계수와의 관계
우선, 두 관계를 설명하기 전에 각각의 값이 어떤 것을 뜻하는 지 알아보겠습니다.
상관계수(correlation coefficient)

상관계수는 두 변수 사이의 통계적 관계를 표현하기 위해 수치적으로 나타낸 수치이며, 범위는 -1 ~ 1 사이에 속하며, -1에 가까울수록 음의 강한 상관관계를 나타내며, 1에 가까울수록 양의 강한 상관관계를 나타냅니다. 0인 경우에는 관계가 없다고 표현할 수 있습니다. 상관 계수의 종류에는 피어슨 상관 계수, 스피어만 상관 계수, 켄달 타우 상관 계수 등이 존재합니다.
결정계수(Coefficient of Determination)

결정계수는 쉽게 모델의 설명력을 표현하는 지표로 활용합니다. 그래서 수식을 보면 y값으로 표현되어 있는데, 보통 주어진 데이터를 기반으로 모델링을 진행해서, 예측한 값들과 실제 값의 차이를 활용하여 구할 수 있습니다. 수식을 풀어서 설명해 보면, 관측치의 평균값으로 모델을 예측한 오차의 분산과 우리가 만든 모델의 예측 오차의 분산을 비율로 표현하여 1에서 비율을 빼줍니다. 단순히 평균으로 모델을 구성했을 때에 비해 분산이 얼마나 감소하는지 확인할 수 있습니다.
그렇다면 두 개는 어떤 관계를 가지고 있을까요? 독립변수와 종속변수가 1개씩 인 경우라고 했을 때에는 상관계수(r)에 제곱한 값은 결정 계수의 값과 동일한 값을 가지게 됩니다.
독립변수가 여러 개인 경우 모델링했을 때, R-squared 는 왜 증가하는가?
그 이유는 수식을 간단하게 살펴보면 알 수 있습니다. 위의 수식에서 분모에 해당하는 값은 SST(총 제곱합)은 전체 변동성을 뜻하는데, 해당 값은 고정되어 있는 값을 가지게 됩니다. 반면, 분자에 해당하는 값은 SSR(제곱합 잔차)은 모델이 설명하지 못한 변동성으로 독립변수를 추가할수록 SSR이 감소하게 됩니다. 독립변수가 추가되게 되면, 모델이 설명하지 못하는 영역에 대한 변동성이 감소하게 됩니다. 왜냐하면 더 많은 정보를 가지게 되기 때문이죠. 그러므로, 이전 모델에 비해 더 좋은 모델이 만들어지게 되고, 그렇게 되었을 때, R-squared 값이 증가하게 되는 것입니다. 하지만, 의미없는 독립변수가 추가되었을 때에도 R-squared 값이 증가하게 되어 모델이 과적합되거나 객관적인 값을 가지지 못하게 되므로, 모델 평가에 R-squared보다는 Adjusted R-squared라는 결정계수를 사용하는 것이 더 좋습니다.
Adjusted R-squared

수정된 결정계수의 경우에는 (n-1/n-k-1)의 값을 곱하게 되는데, 여기서 n은 샘플 수, k는 독립 변수의 수를 의미합니다. 그러면 왜 (n-1)/(n-k-1)의 값을 곱하게 되는 지 확인해 보면, 우선 n-1은 전체 모델의 자유도를 의미하고 n-k-1은 모델이 사용하는 자유도로, 독립변수와 상수항이 회귀 계수를 추정하기 위해 소모하는 자유도를 뜻합니다. 그래서 해당 비율을 곱해줌으로써 모델이 k값에 의해 증가하는 값에 대한 보정을 해준다고 보시면 될 것 같습니다. 그래서 실제로 추가된 독립변수가 유의미한 경우에만 Adjusted R-squared값이 증가하게 됩니다.
3. 샘플 수가 증가할 수록 상관계수가 낮아져도 P-value는 왜 유의미하다고 나오는가?
상관계수의 유의성 검정
우선 상관관계의 유의성 검정을 진행하기 위해서는 귀무가설과 대립가설을 설정해야 합니다. 귀무가설은 두 변수 간의 상관관계가 없다. 대립가설은 두 변수 간의 상관관계가 있다.로 설정할 수 있습니다. 상관계수의 값(피어슨 상관계수)을 바탕으로 t-통계량을 계산합니다.

위에서 r은 피어슨 상관계수, n은 샘플 수를 뜻합니다. 위에서 n-2의 값인 이유는 상관관계를 추정하기 위해 두 개의 변수가 필요하기 때문에 각각의 하나의 자유도를 뺀 n-2가 됩니다. 여기서 얻어진 t값을 통해서 p-value를 계산하게 되고, 이러한 과정을 통해 두 변수 간의 상관관계의 유무를 판단하게 됩니다.
샘플 수와 p-value의 관계
기본적으로 샘플 수가 증가하게 되면, n-2 자유도 값은 증가하게 될 것이고, 그러면 상관계수의 추정 정확도가 높아지고, t 통계량 값이 증가하게 되면서 p-value가 감소하게 됩니다. 극단적인 예시로는 r=0.04일 때 p-value가 0.05보다 작아지는 샘플 수는 2403개보다 커지는 시점에서 대립가설을 채택하게 됩니다. 이처럼, 샘플 수의 증가가 가설 검정에 큰 영향을 줄 수 있습니다. 단순히 가설검정을 통한 통계적 유의성만 살펴보기보단, 실질적으로 의미가 있는 요소인지에 대해 한번 정도 검토해 볼 필요가 있을 것 같습니다.
4. 정리하기
- 상관계수와 결정계수는 독립변수 1개, 종속변수가 1개 인 상황에서 동일한 값을 가지게 됩니다.
- 독립변수가 증가하면, 결정계수의 값도 같이 증가하게 되며, 과적합의 위험이 있습니다.
- 독립변수의 값의 증가에 따른 결정계수 보정을 위해 수정된 결정계수로 추가되는 변수에 대한 효과를 확인할 수 있습니다.
- 상관계수의 유의성 검정을 진행할 때에는 샘플 수가 증가하면 t-통계량도 같이 증가하게 되므로, r값이 낮아도 귀무가설을 기각할 수 있으므로, 실질적으로 의미가 있는 요소인지 살펴볼 필요가 있습니다.