1. 들어가며
제가 지금 현재 있는 회사에서 품질 업무를 하다 보면, 가끔 현재 생산품과 실험품의 비교를 종종 하게 되는 경우가 있습니다. 실험 설계를 하고, 각 데이터의 비교를 통해, 실험재료를 활용해도 되는지에 대한 결과를 도출해야 합니다. 당연하게도 데이터는 많을수록 실험의 정확도는 높아지겠지만, 제품을 만드는 데 들어가는 비용, 시간 등을 고려하면 무조건 많이 만들 수는 없는 노릇입니다. 그래서 어느 정도로 표본 수를 잡아서 실험 설계하는 것이 적합할 지에 대해서 알아보고자 글을 작성합니다.
2. 표본 수 결정의 중요성
표본 크기는 실험 결과의 신뢰성을 결정하는 중요한 요소입니다. 너무 적은 표본을 사용하면 결과의 변동성이 커지고, 실험의 신뢰도가 낮아질 위험이 있습니다. 반대로 표본이 너무 많으면 시간과 비용이 과도하게 증가하여 비효율적인 실험이 될 수 있습니다. 따라서 실험 목적과 허용 가능한 오차 범위를 고려하여 최적의 표본 크기를 설정해야 합니다.
3. 표본 수 계산 방법
기본적으로 표본 수를 결정하기 위해서는 오차 범위, 신뢰 수준, 모집단의 표준편차를 알아야 합니다. 앞에서 언급한 것이 정해져 있다고 가정했을 때, 최소 표본의 크기를 구하는 공식은 아래와 같습니다.
$$ n = (\frac{Z \times \sigma}{E})^2$$
- $n$은 우리가 원하는 최소 표본의 크기
- $Z$는 신뢰수준을 뜻하는 값으로 예를 들어, 95% 신뢰 수준이라고 하면 $Z$는 1.96 값을 사용하면 됩니다.
- $\sigma$는 모집단의 표준편차
- $E$는 허용 가능한 오차범위
수식은 이미 많이 알고 있는 분들이 계실 것 같습니다. 통계책이나 인터넷을 조금만 찾아봐도 위와 같은 공식은 찾을 수 있습니다. 다만, 오늘 이야기해보고 싶은 것은 항목에 대해서 어떻게 우리가 선정하고 적용하는 것이 적합한가에 대해서 소개하고 싶었습니다. 저도 실제로 오차범위는 어떻게 가져가는 것이 좋은가, 신뢰 수준은 몇 프로로 하면 좋을까 등 고민했던 부분들이 많이 있었다 보니, 저와 같은 고민을 하셨던 분들이라면 도움이 되셨으면 좋겠습니다.
우선, 신뢰 수준($Z$)은 실험 결과의 신뢰도를 결정하는 요소로, 일반적으로 90%, 95%, 99% 등의 값이 사용됩니다. 신뢰 수준이 높을수록 정확한 결과를 기대할 수 있지만, 표본의 크기도 증가하게 됩니다. 이렇게 이야기하면 감이 안올 것 같아서 조금 더 정리해서 설명해 보면, 조사를 100번 할 때, 같은 결과가 몇 번이나 나올지를 표현한 숫자와도 같습니다. 99%를 설정한다면, 100번 중 99번이 같은 결과가 나온다는 의미와 같습니다. 무조건 이 숫자가 높게 설정되어야 한다면, 항상 많은 비용과 시간을 소모해야 되겠지만 다행히 이 숫자는 우리가 선정할 수 있습니다.
오차 범위($E$)는 표본 평균이 실제 모집단 평균과 차이가 날 수 있는 허용범위를 의미합니다. 오차 범위는 실험의 정밀도를 결정하는 요소로, 허용할 수 있는 범위가 작을수록 더 많은 표본이 필요하게 됩니다.
만약에 모집단의 표준편차($\sigma$)를 알 수 없는 경우에는 과거 유사 실험 데이터를 활용하여 표준편차를 추정할 수 있으며, 만약 표본 크기가 작다면, 정규분포의 Z-값 대신 t-분포의 t-값을 사용할 수 있습니다. t-값은 표본의 크기가 30보다 작을 때 활용하는 것이 좋습니다. 만약 이와 같은 상황이라면 아래와 같은 수식으로 표현될 수 있습니다.
$$ n = (\frac{t \times s}{E})^2$$
4. 적용 사례
예를 들어, 특정 제품의 평균 무게를 측정하는 실험을 진행한다고 가정했을 때, 우리가 허용할 수 있는 오차가 2g이고, 모집단의 표준편차가 10g이며, 신뢰 수준 95%로 설정한다고 하면 표본의 크기를 구해보면 아래와 같습니다.
$$ n = (\frac{1.96 \times 10}{2})^2 = 96.04 $$
즉, 실험의 신뢰성을 확보하기 위해 약 97개의 표본이 필요하다는 결론을 내릴 수 있습니다.
5. 결론
실험에서 적절한 표본 수를 설정하는 것은 신뢰성 높은 결과를 얻는 데 필수적인 요소입니다. 표본이 너무 적으면 실험 결과의 변동성이 커지고, 반대로 너무 많으면 시간과 비용이 과도하게 증가할 수 있습니다. 따라서 실험의 목적, 허용 가능한 오차 범위, 신뢰 수준 등을 고려하여 최적의 표본 크기를 결정하도록 노력해 봐야겠습니다.