1. 들어가며 제가 지금 현재 있는 회사에서 품질 업무를 하다 보면, 가끔 현재 생산품과 실험품의 비교를 종종 하게 되는 경우가 있습니다. 실험 설계를 하고, 각 데이터의 비교를 통해, 실험재료를 활용해도 되는지에 대한 결과를 도출해야 합니다. 당연하게도 데이터는 많을수록 실험의 정확도는 높아지겠지만, 제품을 만드는 데 들어가는 비용, 시간 등을 고려하면 무조건 많이 만들 수는 없는 노릇입니다. 그래서 어느 정도로 표본 수를 잡아서 실험 설계하는 것이 적합할 지에 대해서 알아보고자 글을 작성합니다.2. 표본 수 결정의 중요성 표본 크기는 실험 결과의 신뢰성을 결정하는 중요한 요소입니다. 너무 적은 표본을 사용하면 결과의 변동성이 커지고, 실험의 신뢰도가 낮아질 위험이 있습니다. 반대로 표본이 너무 많으면..
학습포스팅
1. 들어가며 오늘 회사에서 실제로 있었던 일이었습니다. 회사의 한 분이 저에게 오더니, 샘플 수가 엄청 적을 때 어떻게 가설검정을 할 수 있는지? 물어보는 질문이었습니다. 저희 회사에서는 데이터를 주로 보는 분들이 거의 없다 보니, 주변 팀원분들로부터 이러한 질문을 종종 받게 됩니다. 이 질문에 대해 "당연하게도 샘플수가 적으면 보통은 비모수검정을 사용하는 것이 좋습니다. 그리고 가능하다면, 각 샘플들의 정규성 검정을 해보고 정규성을 갖는다면 모수검정을 해보는 것도 방법일 수는 있겠으나, 그것 또한 정규성을 가지는 지에 대해 신뢰하지 못하는 결과를 얻을 수 있습니다."라고 답변을 드렸습니다. 그리고 집으로 돌아오는 길에 이 내용에 대해서 왜 p-value만 보면 안 되는지에 대해 간략하게 알아보려고 합..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 들어가며지난 포스팅에서는 인과모델 표기방법, 개입, 개별 처치효과, 잠재적 결과, 두 가지의 가정(일치성과 상호 간섭없음)에 대한 용어들을 예시를 들어서 설명드렸습니다. 항상 인과 추론을 할 때에는 다양한 편향을 고려해야 하며, 이를 최소화 하여 정확한 인과 효과를 추정하기 위해 인과 추정량을 적절히 활용해야 합니다. 그래서 오늘 글에서는 인과 추정량의 개념을 위주로 작성하겠습니다.2. 인과 추정량 인과 추정량은 가 에 미치는 영향을 측정하는 수치라고 할 수 있는데, 쉽게 말해, 를 변화시켰을 때 가 얼마나 변하는지를 정량적으로 추정하는 것을 말합니다. 인과 추론에서의 고질적인 문제로 인..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 들어가며지난 포스팅에서는 인과추론이 필요한 이유와 연관관계와 인과관계 차이, 처치와 결과, 인과추론의 근본적인 문제에 대해서 다뤘습니다. 우리가 일상을 살다 보면 다양한 의문이 들 때가 종종 있습니다. 예를 들면, 흡연하는 사람들에게는 폐암이 더 잘 발견되는데, 이러한 이유가 꼭 흡연에 의해서 발생하는 것일까? 아니면, 환경이나 유전적 요인에 의한 것인가? 등등 이와 같은 고민을 해보셨다면 오늘 다룰 내용인 인과모델이 도움이 되실 것 같습니다. 또한 만약 모든 사람들에게 돈을 동일하게 줬다면, 어떤 일이 벌어질까? 등처럼 개입에 대한 개념도 오늘 포스팅에서 다뤄보려고 합니다.2. 인과추론 용어 정리하기인과모델..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 인과추론이 필요한 이유 보통 회사에서 제품의 품질이 변동되거나 문제가 발생하게 되면, 데이터 분석가는 해당 원인이 무엇인지 확인하기 위해 다양한 자료들을 살펴보게 되고, 그 과정 중에 다양한 Feature 간의 상관관계를 살펴보는 일이 비일비재하게 이뤄지게 됩니다. 그때마다 과연 A와 B의 상관관계는 있지만, 인과관계가 존재하는지에 대한 의문이 존재했습니다. 보통 통계학을 공부해 본 사람이라면 흔히 상관관계는 인과관계가 아니라고 설명을 많이 들어왔을 것입니다. 저 또한 해당 내용을 익히 들었기 때문에 이번에 인과추론을 공부하면서 어떻게 제품의 문제 원인을 찾을 수 있을지 공부해보려고 합니다. 사람들은 생각보다..
해당 글은 개인적으로 회사에서 업무를 하면서 느낀 내용에 대하여 경험적인 측면에 따라 작성되었습니다.일부 내용에 오류가 있을 수 있습니다.1. 시작하며 회사에서는 배터리의 성능을 고도화하기 위해, 성능지표와 앞쪽 공정에서의 나온 Feature과의 관계들을 확인하는 작업들을 종종 하곤 합니다. 그때마다, 엑셀에서 흔히 사용하는 추세선의 R-squred 값을 통해, 두 변수 간의 관계성을 확인합니다. 해당 시점에서의 나온 추세선은 Scatter plot을 가장 잘 나타내는 선형회귀식이고, 이를 활용하여 결정계수의 제곱근을 하여, 두 변수 간의 상관계수를 구할 수 있습니다. 그렇게 구해진 상관계수와 N의 값을 통해, 상관있음에 대한 가설검정을 진행하고 이를 받아들일지 판단하게 됩니다. 이러한 과정 중 의문점이..
이번 포스팅은 회사에서 업무 하면서 잘 커뮤니케이션하는 방법과 데이터별로 어떤 대푯값을 선정하는 것이 좋은 지 알아봅니다. 들어가기 전에 회사에서 업무 하다가 보면, 데이터분석가인 저는 다양한 질문을 받게 됩니다. 질문을 받게 되면, 상사나 동료의 질문의 의도, 그들이 궁금하는 것이 무엇일까? 그들이 원하는 정보를 어떻게 이야기하면 좋을까? 에 대해 고민하게 됩니다. 오늘 포스팅에서는 원하는 내용을 전달하기 위해서 어떻게 하는 것이 좋은 지에 대해 적어보려고 합니다. 만약, 어떤 제품을 만드는 제조업이라고 했을 때, "이번 주 생산된 제품들은 좀 어때요? 달라진 거 없나요?" 등의 질문을 받았다고 해봅시다. A라는 사람이 답변으로 "이번 주 제품들 대부분은 특이사항 없는 것 같은데, 간혹 몇 개는 이상한..
유데미에서 데이터 역량 강화를 위한 SQL 부트캠프 강의를 지원받아 작성한 포스팅입니다. 포스팅 내용은 해당 강의를 들으며, 발생한 문제를 해결하기 위한 내용입니다. 오류 상황 데이터 역량 강화를 위한 SQL 부트캠프 강의를 들으면서 PgAdmin, PostgreSQL version 16을 설치한 뒤 강의에서 제공하는 dvdrental.tar 파일을 restore 하는 과정 중 오류 발생했습니다.(컴퓨터 환경 : 윈도우 10, 64비트 / Failed exit code : 3221225781) 해결과정 버전 맞춰보기 강의에서는 12 버전을 활용(강의 당시 최신버전)하고 있었고, 현재 최신 버전은 16 버전이라 PostgreSQL 버전의 문제인지 확인 필요하다고 판단했습니다. 12 버전을 설치해서 작동하는..
31회 ADP 실기 후기 17회 필기를 한 번에 합격하고 나서 취업과 네이버부스트캠프 등을 하느라 제대로 공부하지 못한 상태로 실기에 도전하게 되었고, 2년이라는 유효기간 내에 결국 합격하지 못했습니다. 그래서 다시 작년에 28회 필기시험을 또 합격한 다음, 이번에는 꼭 따보리라 다짐했습니다만 역시나 31회 실기 시험에서 54.3점으로 불합격하게 되었습니다. 2024년부터는 4회 시험에서 2회 시험으로 줄게 되면서 이제 2번의 기회만 남은 상황이 되었습니다. 지난 시험을 다시 회고를 해보면서 문제점은 어떤 것들이 있었는지, 어떤 것들을 보완해야 하는지에 대해 먼저 적어보겠습니다. 첫 번째, 오픈 북이지만 책을 볼 시간이 없습니다. 나만의 정리 자료가 필요합니다. 대학교에서 오픈 북 시험을 한 경험이 있다..
유데미에서 Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복 강의를 지원받아 작성한 포스팅입니다. 포스팅 내용은 Day 32일 차에 대한 프로젝트 내용을 담고 있습니다. 강의에 대한 전반적인 느낌 파이썬을 공부하다 보면, 파이썬 기초부터 객체지향 등 공부해야 하는 것들이 무수히 많다는 것을 느낍니다. 이 강의의 가장 좋은 점은 맨 첫 강의에서 오늘 만들어낼 결과물에 대한 소개하고, 해당 기능을 구현하기 위한 최소 단위의 내용을 배웁니다. 강의 중간에는 강사님께서 혼자 고민해 보고 작성해 볼 수 있도록 제안하는 부분이 많이 도움이 되는 것 같습니다. 단순히, 강의만 듣고 끝나는 것이 아니라 직접 고민해 보고 작성해 보고 정답과 비교해 보는 것을 통해 피드백받을 수 있었습니다. 오늘..