개인적으로 업무를 진행하다가 궁금한 부분에 대해서 공부하고 적용한 내용이라, 일부 상이하거나 잘못된 내용이 있을 수 있습니다. 잘못된 내용이 있다면, 편하게 댓글 부탁드립니다. 감사합니다.
1. 들어가며
오늘도 회사 업무의 연장선으로 실험의 최소 샘플 수 선정하는 방법에 대해 고민할 일이 생겼습니다. 품질팀에서 통계적인 의사결정을 위해 데이터분석을 주로 진행하고 있는데, 생산팀에서 특정 공정의 4M 변경을 요청한 상황이었습니다. 해당 변경이 크리티컬 하게 배터리에 영향을 주진 않을 수 있으나, 검증하는 절차를 가져야 한다고 판단했기에, 해당 의사 결정을 하기 전에 최소한의 항목에 대해서는 검사 및 실험을 진행하여 데이터 수집한 뒤 판단하자는 의견이 나왔습니다. 이에 따라 가용 자원 수가 한정적이니, 판단하기 위한 최소 샘플 수를 정해 달라는 요청을 받게 되었습니다. 그러다 보니, 해당 내용에 대해 공부하고 작성하게 되었습니다.
2. 샘플링 수식에 대하여
$$ n(대응표본) = \frac{ (Z_{\alpha /2} + Z_{\beta})^2 \times \sigma_{d}^2}{\delta ^2} = \frac{(Z_{\alpha/2} + Z_{\beta})^2} {d^2}$$
$$ n(독립표본) = 2 \times \frac{ (Z_{\alpha /2} + Z_{\beta})^2 \times \sigma^2}{\delta ^2} = 2 \times \frac{(Z_{\alpha/2} + Z_{\beta})^2} {d^2} $$
우선, 각각의 수식에 대해서 간략하게 소개하면 아래와 같습니다.
$Z_{\alpha /2}$의 경우 신뢰 수준으로 보통 99%, 95%, 90% 와 같은 신뢰 수준에 해당하는 Z-score를 나타냅니다. 신뢰 수준은 99% 확률로 진짜다라고 말할 수 있을 정도로 확실함을 나타내는 척도라고 보시면 됩니다. 만약 신약 테스트에서 95% 신뢰 수준으로 약효가 있다고 밝혀졌다면, 100번 유사한 실험을 반복했을 때 약 95번은 같은 결과가 나올 것임을 의미합니다.
$Z_{\beta}$의 경우 검정력으로 실제로 차이가 있을 때 그 차이를 발견할 확률을 뜻합니다. 예를 들어, 검정력이 80%라고 한다면, 실제 효과가 있다면, 이 실험으로 80% 확률로 차이를 밝혀낼 수 있다는 것을 의미합니다. 예를 들어서 새로운 4M 공정이 실제로 품질을 개선한다면, 80% 확률로 우리 실험에서 그 개선을 감지할 수 있다는 것을 의미합니다.
$\sigma$의 경우, 집단의 표준편차로 데이터가 평균으로부터 얼마나 퍼져있는 지를 나타내는 지표입니다.
$\sigma d$의 경우, 대응표본에서 사용하는 용어인데, 짝을 이룬 두 측정값 차이의 퍼짐 정도를 나타내는 지표입니다.
$d = \frac{\delta}{\sigma}$는 표준화된 효과의 크기로, 변화나 차이가 얼마나 크고 의미 있는지를 나타내는 지표입니다. 보통 $d$는 0.2, 0.5, 0.8로 보통 3가지로 많이 사용합니다. 0.2의 경우 작은 효과로 미세한 변화, 발견하기 어려운 경우에 해당되면, 0.8로 갈수록 효과가 커서 눈에 띄는 변화를 보인다고 표현합니다. 보통은 표준편차와 차이값을 통해 엄밀하게 정의해야 되나, $d$의 값을 효과의 수준에 따라 나눠서 적용할 수 있겠습니다.
$\delta$는 실험에서 내가 찾아내려는 실제 차이값입니다. 예를 들어, 새 공정이 기존 공정보다 불량률을 3% 줄일 것으로 예상한다면, 델타 값은 3%로 지정할 수 있습니다.
여기서 대응표본이랑 독립표본의 샘플 수가 2배가량 차이 나는 것을 알 수 있습니다. 그 이유는 대응 표본의 경우 2회 측정하기 때문에 독립표본 대비 절반 수준으로 표본을 설정할 수 있습니다.
3. 샘플링 수식으로 얻어진 케이스 별 수량 비교
보통, 신뢰 수준은 90~99%를 사용하며, 검정력은 0.8로 설정한 상태로 샘플 수를 확인해 볼 수 있습니다.
신뢰수준 | d=0.2(작은 효과) | d=0.5(중간 효과) | d=0.8(큰 효과) | δ와 σd로 표현 |
99% | 147 | 24 | 9 | (2.576 + 0.84)² × σd² / δ² |
95% | 98 | 16 | 6 | (1.96 + 0.84)² × σd² / δ² |
90% | 77 | 12 | 5 | (1.645 + 0.84)² × σd² / δ² |
여기서 신뢰수준 99% 작은 효과에 대해서 실험을 진행한다고 했을 때, 대응표본이라면 147개의 샘플을 준비해야 하고, 독립표본이라면, 위에서의 그룹 당 294개의 샘플을 준비해야 합니다.
이번에 도입하게 되는 4M 변경에 대해서 살펴보자면, 공정에서의 큰 변화는 아니며, 독립표본 조건이고, $d$ 는 0.2로 설정할 수 있고, 신뢰 수준은 99%를 적용한다고 했을 때, 총 294개의 실험 샘플이 필요한 상황이 됩니다. 보통 공정의 변경 등에 대해서는 중간효과를 사용하여 적용한다면, 최소 48개의 샘플이 준비해야 됩니다. 확실히 효과의 크기가 작을수록 구분하기 위한 샘플 수가 크게 증가하는 형태를 보이고 있습니다.
4. 마무리하며
항상 실험에 대한 가설검정을 진행해서 가져가면, 늘 꼭 듣던 이야기가 "저거 샘플 수 부족해서 그런 거 아니냐?"라는 의견이 많았었는데, 이제부터는 대부분의 실험에 대해서 위 표를 참고하여 샘플 수 설정하기 좋을 것 같습니다. 앞으로는 가설검정의 샘플 수에 의해 신뢰할 수 없는 데이터가 아니냐 라는 의견이 없길 간절히 바랍니다.