해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.
1. 들어가며
지난 포스팅에서는 인과모델 표기방법, 개입, 개별 처치효과, 잠재적 결과, 두 가지의 가정(일치성과 상호 간섭없음)에 대한 용어들을 예시를 들어서 설명드렸습니다. 항상 인과 추론을 할 때에는 다양한 편향을 고려해야 하며, 이를 최소화 하여 정확한 인과 효과를 추정하기 위해 인과 추정량을 적절히 활용해야 합니다. 그래서 오늘 글에서는 인과 추정량의 개념을 위주로 작성하겠습니다.
2. 인과 추정량
인과 추정량은 $X$가 $Y$에 미치는 영향을 측정하는 수치라고 할 수 있는데, 쉽게 말해, $X$를 변화시켰을 때 $Y$가 얼마나 변하는지를 정량적으로 추정하는 것을 말합니다. 인과 추론에서의 고질적인 문제로 인해, 잠재적 결과 중 하나만 측정할 수 있어 개별 처치효과($\tau_{i}$)를 알 수 없습니다. 개별 처치효과는 알기 어렵지만, 데이터에서 확인할 수 있는 3가지의 처치 효과를 살펴보려고 합니다.
평균 처치효과(Average Treatment Effect)
$$ ATE = E[\tau_{i}] = E[Y_{1i} - Y_{0i}] = E[Y|do(T=1)] - E[Y|do(T=0)]$$
평균 처치효과는 처치 $T$가 평균적으로 미치는 영향을 나타냅니다. 하지만, 각 실험마다 처리에 따른 결과를 알 수 없기 때문에, $ATE$를 구하기는 어렵습니다.
실험군에 대한 평균 처치효과(Average Treatment Effect on the treated)
$$ ATT = E[Y_{1i} - Y_{0i} | Y=1]$$
실험군에 대한 평균 처치효과는 처치 받은 대상에 대한 처치효과로, 예시를 들어보면, 실제로 흡연한 사람들만을 대상으로 폐암 발생률 변화를 분석한다고 볼 수 있습니다. 하지만, 처치 받은 대상을 전제로 하기 때문에, 수식에서의 $Y_{0i}$는 관측되지 않습니다.
조건부 평균 처치효과(Conditional Average Treatment Effect)
$$ CATE = E[Y_{1i} - Y_{0i} | X = x] $$
조건부 평균 처치효과는 변수 $X$로 정의된 그룹에서의 처치효과입니다. 예를 들면, 특정 조건(폐 질환 가족력이 있는 사람들)에서 흡연이 폐암 발생에 미치는 영향을 구할 때 사용하게 됩니다. 이 처치효과는 어떤 대상이 개입에 잘 반응하는지 확인하기 용이합니다.
아래의 테이블을 바탕으로 인과 추정량을 한번 구해봅시다. 원래 현실세계라고 한다면, 각 실험 대상에게는 $Y_{0}$, $Y_{1}$ 중 하나는 확인할 수 없는 값이며, 처치효과 또한 둘 중 하나의 값을 알 수 없기에 구할 수 없습니다.
ID | 흡연여부 | 가족력 | Y0 | Y1 | 처치효과 Y1-Y0 |
1 | 1 | 1 | 0 | 1 | 1 |
2 | 1 | 0 | 0 | 1 | 1 |
3 | 1 | 1 | 1 | 1 | 0 |
4 | 1 | 0 | 0 | 1 | 1 |
5 | 1 | 1 | 1 | 1 | 0 |
6 | 0 | 0 | 0 | 1 | 1 |
7 | 0 | 1 | 0 | 0 | 0 |
8 | 0 | 1 | 1 | 1 | 0 |
9 | 0 | 0 | 0 | 1 | 1 |
10 | 0 | 0 | 0 | 0 | 0 |
$$ ATE = \mathbb{E}[Y_1 - Y_0] = \frac{1+1+0+1+0+1+0+0+1+0}{10} = 0.4 $$
평균 처치효과는 전체에 대한 개별 처치효과의 기댓값이므로, 0.4의 값을 얻을 수 있습니다. 이번에는 흡연한 사람에 대한 평균 처치효과를 구해봅시다.
$$ ATT = \mathbb{E}[Y_1 - Y_0 | T=1] = \frac{1+1+0+1+0}{5} = 0.6 $$
흡연한 사람에 대한 평균 처치효과를 구해보면, 위와 같이 0.6인 것을 알 수 있습니다. 마지막으로 가족력을 가지고 있는 사람에 대한 평균 처치효과를 구해봅시다.
$$ CATE = \mathbb{E}[Y_1 - Y_0 | \text{가족력} = 1] = \frac{1+0+0+0}{4} = 0.25 $$
위와 같이 각각의 값을 비교해보면, 흡연했을 때의 평균 처치효과가 가장 높은 것을 확인할 수 있습니다. 그러므로, 흡연의 영향이 다른 것에 비해 가장 컸다고 볼 수 있습니다. 하지만, 실제 상황에서는 아래와 같은 테이블만 얻을 수 있기에 위와 같이 구할 수 없다는 점을 잊지 않으셔야 합니다.
ID | 흡연여부 | 가족력 | Y0 | Y1 | 처치효과 Y1-Y0 |
1 | 1 | 1 | 1 | ||
2 | 1 | 0 | 1 | ||
3 | 1 | 1 | 1 | ||
4 | 1 | 0 | 1 | ||
5 | 1 | 1 | 1 | ||
6 | 0 | 0 | 0 | ||
7 | 0 | 1 | 0 | ||
8 | 0 | 1 | 1 | ||
9 | 0 | 0 | 0 | ||
10 | 0 | 0 | 0 |
3. 정리하며
이번 글에서는 인과 추정량에 대해서 소개해봤습니다. 평균 처치효과에 대해서 수식으로 표현해보고, 실제 예시를 통해 어떻게 계산하는 지까지 알아봤습니다. 하지만, 계산하기 위해서는 모든 경우에 대한 결과를 알아야되지만, 현실에서는 알 수 없는 경우가 많습니다. 이 사실을 잊지 않으시길 바라며, 다음 글에서는 편향에 대한 내용으로 돌아오도록 하겠습니다.