2025년 3월 25일 글또를 시작하던 날이 벌써 작년이었고, 가을에서 겨울로 넘어가고 있던 시기였는데, 오늘은 날씨도 무더운 여름으로 향하고 있고, 패딩보다는 셔츠 한 장이 더 잘 어울리는 계절이 되었습니다. 항상 시간은 정말 빠르게 지나간다는 것을 글또를 하면서 또 한 번 느끼는 것 같습니다. 매번 다짐글을 작성하고, 마무리로 회고를 작성하며 항상 글또를 마무리했었는데, 이번 기수에도 마찬가지로 회고 과정을 통해, 나에게 부족했던 것은 무엇이었고, 내가 이뤄냈던 것들은 무엇이었는지 뒤돌아보는 시간으로 가지려고 합니다. 글또가 10회가 진행되는 동안 5기, 6기, 7기, 9기, 10기 총 5회에 걸쳐서 참여하며, 많은 사람들을 만나 자극도 되고 현재 시장에서의 변화 등을 알 수 있었던 너무나 좋았던 시..
전체 글
SOOHO 개발공부노트1. 들어가며 제가 지금 현재 있는 회사에서 품질 업무를 하다 보면, 가끔 현재 생산품과 실험품의 비교를 종종 하게 되는 경우가 있습니다. 실험 설계를 하고, 각 데이터의 비교를 통해, 실험재료를 활용해도 되는지에 대한 결과를 도출해야 합니다. 당연하게도 데이터는 많을수록 실험의 정확도는 높아지겠지만, 제품을 만드는 데 들어가는 비용, 시간 등을 고려하면 무조건 많이 만들 수는 없는 노릇입니다. 그래서 어느 정도로 표본 수를 잡아서 실험 설계하는 것이 적합할 지에 대해서 알아보고자 글을 작성합니다.2. 표본 수 결정의 중요성 표본 크기는 실험 결과의 신뢰성을 결정하는 중요한 요소입니다. 너무 적은 표본을 사용하면 결과의 변동성이 커지고, 실험의 신뢰도가 낮아질 위험이 있습니다. 반대로 표본이 너무 많으면..
1. 들어가며 오늘 회사에서 실제로 있었던 일이었습니다. 회사의 한 분이 저에게 오더니, 샘플 수가 엄청 적을 때 어떻게 가설검정을 할 수 있는지? 물어보는 질문이었습니다. 저희 회사에서는 데이터를 주로 보는 분들이 거의 없다 보니, 주변 팀원분들로부터 이러한 질문을 종종 받게 됩니다. 이 질문에 대해 "당연하게도 샘플수가 적으면 보통은 비모수검정을 사용하는 것이 좋습니다. 그리고 가능하다면, 각 샘플들의 정규성 검정을 해보고 정규성을 갖는다면 모수검정을 해보는 것도 방법일 수는 있겠으나, 그것 또한 정규성을 가지는 지에 대해 신뢰하지 못하는 결과를 얻을 수 있습니다."라고 답변을 드렸습니다. 그리고 집으로 돌아오는 길에 이 내용에 대해서 왜 p-value만 보면 안 되는지에 대해 간략하게 알아보려고 합..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 들어가며지난 포스팅에서는 인과모델 표기방법, 개입, 개별 처치효과, 잠재적 결과, 두 가지의 가정(일치성과 상호 간섭없음)에 대한 용어들을 예시를 들어서 설명드렸습니다. 항상 인과 추론을 할 때에는 다양한 편향을 고려해야 하며, 이를 최소화 하여 정확한 인과 효과를 추정하기 위해 인과 추정량을 적절히 활용해야 합니다. 그래서 오늘 글에서는 인과 추정량의 개념을 위주로 작성하겠습니다.2. 인과 추정량 인과 추정량은 $X$가 $Y$에 미치는 영향을 측정하는 수치라고 할 수 있는데, 쉽게 말해, $X$를 변화시켰을 때 $Y$가 얼마나 변하는지를 정량적으로 추정하는 것을 말합니다. 인과 추론에서의 고질적인 문제로 인..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 들어가며지난 포스팅에서는 인과추론이 필요한 이유와 연관관계와 인과관계 차이, 처치와 결과, 인과추론의 근본적인 문제에 대해서 다뤘습니다. 우리가 일상을 살다 보면 다양한 의문이 들 때가 종종 있습니다. 예를 들면, 흡연하는 사람들에게는 폐암이 더 잘 발견되는데, 이러한 이유가 꼭 흡연에 의해서 발생하는 것일까? 아니면, 환경이나 유전적 요인에 의한 것인가? 등등 이와 같은 고민을 해보셨다면 오늘 다룰 내용인 인과모델이 도움이 되실 것 같습니다. 또한 만약 모든 사람들에게 돈을 동일하게 줬다면, 어떤 일이 벌어질까? 등처럼 개입에 대한 개념도 오늘 포스팅에서 다뤄보려고 합니다.2. 인과추론 용어 정리하기인과모델..
해당 포스팅은 "실무로 통하는 인과추론 with 파이썬" 책을 학습하면서 재구성한 글입니다.1. 인과추론이 필요한 이유 보통 회사에서 제품의 품질이 변동되거나 문제가 발생하게 되면, 데이터 분석가는 해당 원인이 무엇인지 확인하기 위해 다양한 자료들을 살펴보게 되고, 그 과정 중에 다양한 Feature 간의 상관관계를 살펴보는 일이 비일비재하게 이뤄지게 됩니다. 그때마다 과연 A와 B의 상관관계는 있지만, 인과관계가 존재하는지에 대한 의문이 존재했습니다. 보통 통계학을 공부해 본 사람이라면 흔히 상관관계는 인과관계가 아니라고 설명을 많이 들어왔을 것입니다. 저 또한 해당 내용을 익히 들었기 때문에 이번에 인과추론을 공부하면서 어떻게 제품의 문제 원인을 찾을 수 있을지 공부해보려고 합니다. 사람들은 생각보다..
글을 시작하며 그동안 앓던 이가 빠진 것처럼 최근에 ADP 자격증을 합격하고서 잠시의 휴식을 누렸습니다. 이제 시험을 위한 공부가 아니라, 내 성장을 위한 공부를 해볼 수 있겠다는 생각이 들었습니다. 물론, ADP 자격증을 공부하면서 얻은 지식들이 생각보다 많이 유용하게 사용되고 있고, 현재에도 업무에 많이 적용하고 있습니다. 그래도.. 시험을 위한 공부는 너무 싫었는데, 끝이 올까라고 생각했던 일이 끝나서 참 다행이라고 생각했습니다. 조금 더 홀가분한 마음으로 이쯤에서 업무나 개인적인 생각들을 정리하고 다시 나아갈 힘을 얻어보고자 앞으로의 계획을 작성해보려고 합니다. 이번 글에서는 현재하는 업무와 관련해서 해보면 좋은 것들과 앞으로 미래의 업무를 고려했을 때 공부해 보면 좋을 것들, 그리고 개인적인..
이 내용은 개인적인 경험을 기반으로 작성된 글입니다.1. 6수 만에 드디어 합격 10월 12일, 대전 한 시험장에서 33회 ADP 시험을 치르게 되었습니다. 사실 거의 4년 동안 지속적으로 공부해 오던 자격증이라, 매번 보는 것이 특별하다고 느껴지지는 않았습니다. 지금까지 봐왔던 실기시험은 23회, 24회, 25회, 31회, 32회, 33회 총 6회를 진행했었네요. 거의 42만 원을 시험비용으로 사용했었다니.. 믿기지 않네요. 그래도 이번 시험을 봤을 때에는 늘 시간에 쫓기던 시험이 3시간 만에 모든 문제의 대략적인 답안을 작성할 수 있었고, 남은 시간 동안 답안에 대한 검토를 할 수 있었습니다. 혹시나 해당 자격증이 무엇인지 모르는 분들을 위해 간략히 설명드려보면, ADP 자격증은 데이터 분석 전문가..
해당 글은 개인적으로 회사에서 업무를 하면서 느낀 내용에 대하여 경험적인 측면에 따라 작성되었습니다.일부 내용에 오류가 있을 수 있습니다.1. 시작하며 회사에서는 배터리의 성능을 고도화하기 위해, 성능지표와 앞쪽 공정에서의 나온 Feature과의 관계들을 확인하는 작업들을 종종 하곤 합니다. 그때마다, 엑셀에서 흔히 사용하는 추세선의 R-squred 값을 통해, 두 변수 간의 관계성을 확인합니다. 해당 시점에서의 나온 추세선은 Scatter plot을 가장 잘 나타내는 선형회귀식이고, 이를 활용하여 결정계수의 제곱근을 하여, 두 변수 간의 상관계수를 구할 수 있습니다. 그렇게 구해진 상관계수와 N의 값을 통해, 상관있음에 대한 가설검정을 진행하고 이를 받아들일지 판단하게 됩니다. 이러한 과정 중 의문점이..
2024년 10월 1일 어느덧, 시간이 또 흘러 올해의 막바지인 12월을 향해 달려가고 있는 시점입니다. 오늘은 대전을 떠나, 근교로 나와 자연을 만끽하면서 글을 작성해보고 있는데, 확실히 10월이 되면서 많이 선선해지고, 반팔보다는 긴팔을 고르게 되는 가을이 되었네요. 이 맘 때가 되면 항상 올해 초에 계획했던 것들을 하나씩 하나씩 잘 이뤄가고 있는 지를 돌아보게 되는데, 다른 분들은 잘해나가고 계신가요? 저에겐 10월은 현재 회사를 다니기 시작한 달로 사회 구성원으로의 새로운 출발이었던 시기이자 이번 글을 작성한 계기이기도 한 글또의 마지막 기수가 시작되는 시점이기도 합니다. 글또는 그동안 10기까지 총 8년에 걸쳐서 진행되어 온 "글 쓰는 또라이가 세상을 바꾼다"는 커뮤니티입니다. 많은 운영진분들..