이번 포스팅은 회사에서 업무 하면서 잘 커뮤니케이션하는 방법과 데이터별로 어떤 대푯값을 선정하는 것이 좋은 지 알아봅니다.
들어가기 전에
회사에서 업무 하다가 보면, 데이터분석가인 저는 다양한 질문을 받게 됩니다. 질문을 받게 되면, 상사나 동료의 질문의 의도, 그들이 궁금하는 것이 무엇일까? 그들이 원하는 정보를 어떻게 이야기하면 좋을까? 에 대해 고민하게 됩니다. 오늘 포스팅에서는 원하는 내용을 전달하기 위해서 어떻게 하는 것이 좋은 지에 대해 적어보려고 합니다.
만약, 어떤 제품을 만드는 제조업이라고 했을 때, "이번 주 생산된 제품들은 좀 어때요? 달라진 거 없나요?" 등의 질문을 받았다고 해봅시다.
A라는 사람이 답변으로 "이번 주 제품들 대부분은 특이사항 없는 것 같은데, 간혹 몇 개는 이상한 제품이 있는 것 같아요."라고 했다면, 질문자의 입장에서는 추가로 어떤 것들이 궁금할까요? "어떤 이상한 제품이 있었나요? 그렇게 판단한 이유는 뭔가요?", "특이사항이 없다고 했는데, 이번주 제품이랑 지난주 제품은 수치적으로 차이가 없었나요?"에 대해 다시 한번 되묻게 될 것 같습니다.
B라는 사람이 답변으로 "지난주와 비교했을 때, 전체적으로 A지표는 0.5% 상승해서 크게 달라진 점은 없으나, 전체 생산량의 3%에서 A 지표가 1%가 감소하는 현상을 발견했습니다."라고 한다면, A의 답변에 비해 질문자의 궁금증을 어느 정도 해결해 줄 수 있는 답변을 할 수 있습니다. 오늘은 대푯값의 종류와 각 데이터에 따라 올바른 대푯값 선정하는 방법에 대해 알아보겠습니다.
대푯값 종류 알아보기
대푯값은 어떤 데이터를 대표하는 값입니다. 예를 들어, A 학교 학생이 100명이 있다고 했을 때, 각 학생의 키 정보를 수집해서 A 학교 학생의 키는 몇이라고 표현할 수 있을까요? A 학교 학생의 평균 키는 170이라고 설명할 수 있습니다. 이처럼 대표적으로 평균, 중앙값, 최빈값 등이 있습니다.
계산적 대푯값
계산적 대푯값은 데이터의 중심 경향성을 나타내는 데 사용되는 값입니다. 주로, 데이터의 분포를 요약하거나 특징을 파악하는 데 사용합니다. 대표적으로 산술평균, 기하평균, 조화평균 등이 있습니다.
위치적 대푯값
위치적 대푯값은 데이터의 위치를 나타내는데 사용되는 값입니다. 주로 주어진 데이터의 순서나 위치를 기반으로 계산됩니다. 대표적으로는 중앙값, 백분위수, 사분위수 등이 있습니다.
적절한 대푯값 선정하기
적절한 대푯값 선정하기 부분에서는 주로 계산적 대푯값을 선정하는 기준과 사례를 바탕으로 설명해 보겠습니다.
산술평균
$$\frac{\sum_{i=1}^n x_i }{n}$$
일반적으로 흔히 알고 있는 평균이 산술평균입니다. 모든 데이터의 값을 더한 뒤 데이터의 개수로 나눈 값으로, 데이터의 중심 경향성을 파악하는데 주로 활용됩니다. 산술평균은 이상치의 영향을 많이 받으므로, 이상치가 포함된 데이터에서는 적합하지 않습니다.
기하평균
$$\sqrt[n]{\prod_{i=1}^{n}x_i}$$
양수 값의 곱에 대한 n번째 제곱근을 계산하여 얻은 값입니다. 주로 곱해지는 값에 대한 평균을 구할 때나 변화율 데이터를 다룰 때 사용됩니다. 가장 많이 사용되는 예시로는 물가 변동률, 경제 성장률 등이 있습니다. 예를 들어서, 첫 번째 해 5%의 물가가 상승했고, 두 번째 해에 10%의 물가가 상승했을 때, 연평균 증가율은 7.5%라고 생각했다면, 틀린 계산입니다. 연평균 증가율을 $x$라고 가정했을 때, $(1+x)^2$이 2년의 증가율이 1.155와 같아져야 하므로, 실제 연평균 증가율은 $\sqrt[2]{1.05 \times 1.1} - 1$ 로 7.47%임을 알 수 있습니다.
조화평균
$$ \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}} $$
조화평균은 여러 데이터 포인트의 역수의 산술 평균의 역수로 비율 관련 데이터에서 많이 활용됩니다. 가장 많이 사용되는 예시로는 평균속력이 있습니다. 이를 활용한 지표 중에는 F1-score가 존재하는데, 작은 데이터에 상대적으로 가중치를 높게 주기 때문에 imblanced data 모델 평가에 활용되기도 합니다. 예를 들어, A목적지까지 다녀오는데, 갈 때에는 5km/h 속력으로, 올 때에는 10km/h 속력으로 갔다고 했을 때의 평균 속력을 구하려면, 각 거리에 대한 걸린 시간이 다르므로, 단순 산술평균으로 구하면 안됩니다. 평균속력을 구하기 위해서 속력은 거리/시간 이므로, 갈 때의 거리를 1로 가정하고, 시간은 거리/속력이므로, 갈 때와 올 때의 걸린 시간을 $1/5$과 $1/10$의 합으로 표현하게 됩니다. 직접 구해보면 평균 속력은 6.66km/h가 됩니다.
$$\frac{2}{\frac{1}{5}+\frac{1}{10}} = \frac{2 \times 5 \times 10}{5+10} \approx 6.66$$
절사평균
절사평균은 주어진 데이터에서 일정한 비율의 데이터를 양 끝에서 제외하고 남은 데이터들의 평균을 계산하는 방법입니다. 이 방법은 이상치의 영향을 줄이고 데이터의 분포를 정확하게 파악할 수 있도록 도와줍니다. 데이터에 이상치가 많이 있는 경우에는 위의 절사 평균을 사용해서 이상치의 영향을 줄일 수 있습니다.
평방평균
$$ \sqrt {\frac{1}{n} \sum_{i=1}^{n} {x_i}^2} $$
평방평균 각 데이터를 제곱하여 산술평균을 구한 뒤 제곱근을 취한 값으로 이상치의 영향을 부각할 때 주로 사용되는 방법입니다. 평방 평균은 특히 이상치가 많은 소리의 진폭 변화, 전력량의 변동 등을 분석할 때 유용합니다.
업무에 적용해보기
현재 제가 다니고 있는 회사의 경우 배터리 회사이므로, 회사의 배터리의 성능을 나타내는 지표가 존재합니다. 해당 지표에 대해서 이상치가 많은 데이터의 경우, 절사 평균을 적용해보면 좋을 것 같습니다. 또한 전류나 전압 값에 대해서 분석을 진행할 때에는 평방평균을 활용하여 특정 시점에 전압이 튀거나, 전류가 튀었는지 체크할 수 있을 것 같습니다.
3줄 요약
- 상대방의 질문에 답할 때에는 올바른 대푯값을 선정하여 대상과 비교해 줘야 더 좋은 정보전달이 가능합니다.
- 대푯값에는 계산적 대푯값과 위치적 대푯값이 존재합니다.
- 계산적 대푯값을 사용할 때에는 데이터의 특성이나 분포 등을 고려하여 알맞은 대푯값을 선정해서 사용해야 합니다.