학습포스팅/데이터분석

1. 들어가며 제가 지금 현재 있는 회사에서 품질 업무를 하다 보면, 가끔 현재 생산품과 실험품의 비교를 종종 하게 되는 경우가 있습니다. 실험 설계를 하고, 각 데이터의 비교를 통해, 실험재료를 활용해도 되는지에 대한 결과를 도출해야 합니다. 당연하게도 데이터는 많을수록 실험의 정확도는 높아지겠지만, 제품을 만드는 데 들어가는 비용, 시간 등을 고려하면 무조건 많이 만들 수는 없는 노릇입니다. 그래서 어느 정도로 표본 수를 잡아서 실험 설계하는 것이 적합할 지에 대해서 알아보고자 글을 작성합니다.2. 표본 수 결정의 중요성 표본 크기는 실험 결과의 신뢰성을 결정하는 중요한 요소입니다. 너무 적은 표본을 사용하면 결과의 변동성이 커지고, 실험의 신뢰도가 낮아질 위험이 있습니다. 반대로 표본이 너무 많으면..
1. 들어가며 오늘 회사에서 실제로 있었던 일이었습니다. 회사의 한 분이 저에게 오더니, 샘플 수가 엄청 적을 때 어떻게 가설검정을 할 수 있는지? 물어보는 질문이었습니다. 저희 회사에서는 데이터를 주로 보는 분들이 거의 없다 보니, 주변 팀원분들로부터 이러한 질문을 종종 받게 됩니다. 이 질문에 대해 "당연하게도 샘플수가 적으면 보통은 비모수검정을 사용하는 것이 좋습니다. 그리고 가능하다면, 각 샘플들의 정규성 검정을 해보고 정규성을 갖는다면 모수검정을 해보는 것도 방법일 수는 있겠으나, 그것 또한 정규성을 가지는 지에 대해 신뢰하지 못하는 결과를 얻을 수 있습니다."라고 답변을 드렸습니다. 그리고 집으로 돌아오는 길에 이 내용에 대해서 왜 p-value만 보면 안 되는지에 대해 간략하게 알아보려고 합..
해당 글은 개인적으로 회사에서 업무를 하면서 느낀 내용에 대하여 경험적인 측면에 따라 작성되었습니다.일부 내용에 오류가 있을 수 있습니다.1. 시작하며 회사에서는 배터리의 성능을 고도화하기 위해, 성능지표와 앞쪽 공정에서의 나온 Feature과의 관계들을 확인하는 작업들을 종종 하곤 합니다. 그때마다, 엑셀에서 흔히 사용하는 추세선의 R-squred 값을 통해, 두 변수 간의 관계성을 확인합니다. 해당 시점에서의 나온 추세선은 Scatter plot을 가장 잘 나타내는 선형회귀식이고, 이를 활용하여 결정계수의 제곱근을 하여, 두 변수 간의 상관계수를 구할 수 있습니다. 그렇게 구해진 상관계수와 N의 값을 통해, 상관있음에 대한 가설검정을 진행하고 이를 받아들일지 판단하게 됩니다. 이러한 과정 중 의문점이..
이번 포스팅은 회사에서 업무 하면서 잘 커뮤니케이션하는 방법과 데이터별로 어떤 대푯값을 선정하는 것이 좋은 지 알아봅니다. 들어가기 전에 회사에서 업무 하다가 보면, 데이터분석가인 저는 다양한 질문을 받게 됩니다. 질문을 받게 되면, 상사나 동료의 질문의 의도, 그들이 궁금하는 것이 무엇일까? 그들이 원하는 정보를 어떻게 이야기하면 좋을까? 에 대해 고민하게 됩니다. 오늘 포스팅에서는 원하는 내용을 전달하기 위해서 어떻게 하는 것이 좋은 지에 대해 적어보려고 합니다. 만약, 어떤 제품을 만드는 제조업이라고 했을 때, "이번 주 생산된 제품들은 좀 어때요? 달라진 거 없나요?" 등의 질문을 받았다고 해봅시다. A라는 사람이 답변으로 "이번 주 제품들 대부분은 특이사항 없는 것 같은데, 간혹 몇 개는 이상한..
들어가기 전에 지난 포스팅에서는 비모수 검정과 모수 검정에 대한 간략한 소개를 했습니다. 그리고 사내에 새로운 교육을 실시하는 예시를 통해, 가설 검정하는 순서와 비모수 검정과 모수 검정을 했을 때의 차이에 대해서 다뤘습니다. 해당 내용이 궁금하시다면 여기를 클릭하시면 확인하실 수 있습니다. 오늘은 지난 포스팅에서 소개하지 못한 맥니마 검정, 코크란 Q검정에 대해서 작성해보려고 합니다. 이 포스팅에서는 비모수 검정방법에 대한 간략한 소개, 각 가설검정 방법이 어떤 경우에 사용할 수 있는 지, 맥니마 검정과 코크란 Q검정에 대해서 알아봅니다. 대략적인 통계 배경지식이 있으신 분들이나 ADP 준비 중이신 분들에게 도움이 될 것 같습니다.비모수 검정방법 비모수 검정방법은 지난 포스팅에서 말했듯이, 모집단의 분..
들어가기 전에 최근 ADP 실기 시험을 준비하면서 통계분석과 기계학습에 대해서 차근차근 다시 공부해보고 있는 와중에 처음 들어보는 검정 방법을 알게 되면서 이 글을 작성하게 되었습니다. 아무래도 우리에게 친숙한 T검정이나 ANOVA 등 모수검정에 활용되는 방법들은 많이 알고 있지만,  맥니마 검정, 코크란 Q검정 등에 대해 작성해보고자 합니다. 실제 회사의 데이터들을 활용해서 가설검정을 하다보면, 표본은 작고, 모수검정을 활용하기엔 정규성 만족을 안하던가, 등분산성 만족을 하지 못해 비모수검정을 해야할 때가 종종 발생하는데, 이 기회에 새로운 검정방법에 대해서 공부하고, 이를 잘 써먹어보고자 글을 작성합니다. 이 글에서는 모수 검정과 비모수 검정의 정의, 한 가지 예시를 들어 동일한 데이터에 대해 모수와..
Sooho_Kim
'학습포스팅/데이터분석' 카테고리의 글 목록