학습포스팅

이번 포스팅은 회사에서 업무 하면서 잘 커뮤니케이션하는 방법과 데이터별로 어떤 대푯값을 선정하는 것이 좋은 지 알아봅니다. 들어가기 전에 회사에서 업무 하다가 보면, 데이터분석가인 저는 다양한 질문을 받게 됩니다. 질문을 받게 되면, 상사나 동료의 질문의 의도, 그들이 궁금하는 것이 무엇일까? 그들이 원하는 정보를 어떻게 이야기하면 좋을까? 에 대해 고민하게 됩니다. 오늘 포스팅에서는 원하는 내용을 전달하기 위해서 어떻게 하는 것이 좋은 지에 대해 적어보려고 합니다. 만약, 어떤 제품을 만드는 제조업이라고 했을 때, "이번 주 생산된 제품들은 좀 어때요? 달라진 거 없나요?" 등의 질문을 받았다고 해봅시다. A라는 사람이 답변으로 "이번 주 제품들 대부분은 특이사항 없는 것 같은데, 간혹 몇 개는 이상한..
유데미에서 데이터 역량 강화를 위한 SQL 부트캠프 강의를 지원받아 작성한 포스팅입니다. 포스팅 내용은 해당 강의를 들으며, 발생한 문제를 해결하기 위한 내용입니다. 오류 상황 데이터 역량 강화를 위한 SQL 부트캠프 강의를 들으면서 PgAdmin, PostgreSQL version 16을 설치한 뒤 강의에서 제공하는 dvdrental.tar 파일을 restore 하는 과정 중 오류 발생했습니다.(컴퓨터 환경 : 윈도우 10, 64비트 / Failed exit code : 3221225781) 해결과정 버전 맞춰보기 강의에서는 12 버전을 활용(강의 당시 최신버전)하고 있었고, 현재 최신 버전은 16 버전이라 PostgreSQL 버전의 문제인지 확인 필요하다고 판단했습니다. 12 버전을 설치해서 작동하는..
31회 ADP 실기 후기 17회 필기를 한 번에 합격하고 나서 취업과 네이버부스트캠프 등을 하느라 제대로 공부하지 못한 상태로 실기에 도전하게 되었고, 2년이라는 유효기간 내에 결국 합격하지 못했습니다. 그래서 다시 작년에 28회 필기시험을 또 합격한 다음, 이번에는 꼭 따보리라 다짐했습니다만 역시나 31회 실기 시험에서 54.3점으로 불합격하게 되었습니다. 2024년부터는 4회 시험에서 2회 시험으로 줄게 되면서 이제 2번의 기회만 남은 상황이 되었습니다. 지난 시험을 다시 회고를 해보면서 문제점은 어떤 것들이 있었는지, 어떤 것들을 보완해야 하는지에 대해 먼저 적어보겠습니다. 첫 번째, 오픈 북이지만 책을 볼 시간이 없습니다. 나만의 정리 자료가 필요합니다. 대학교에서 오픈 북 시험을 한 경험이 있다..
유데미에서 Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복 강의를 지원받아 작성한 포스팅입니다. 포스팅 내용은 Day 32일 차에 대한 프로젝트 내용을 담고 있습니다. 강의에 대한 전반적인 느낌 파이썬을 공부하다 보면, 파이썬 기초부터 객체지향 등 공부해야 하는 것들이 무수히 많다는 것을 느낍니다. 이 강의의 가장 좋은 점은 맨 첫 강의에서 오늘 만들어낼 결과물에 대한 소개하고, 해당 기능을 구현하기 위한 최소 단위의 내용을 배웁니다. 강의 중간에는 강사님께서 혼자 고민해 보고 작성해 볼 수 있도록 제안하는 부분이 많이 도움이 되는 것 같습니다. 단순히, 강의만 듣고 끝나는 것이 아니라 직접 고민해 보고 작성해 보고 정답과 비교해 보는 것을 통해 피드백받을 수 있었습니다. 오늘..
들어가기 전에 지난 포스팅에서는 비모수 검정과 모수 검정에 대한 간략한 소개를 했습니다. 그리고 사내에 새로운 교육을 실시하는 예시를 통해, 가설 검정하는 순서와 비모수 검정과 모수 검정을 했을 때의 차이에 대해서 다뤘습니다. 해당 내용이 궁금하시다면 여기를 클릭하시면 확인하실 수 있습니다. 오늘은 지난 포스팅에서 소개하지 못한 맥니마 검정, 코크란 Q검정에 대해서 작성해보려고 합니다. 이 포스팅에서는 비모수 검정방법에 대한 간략한 소개, 각 가설검정 방법이 어떤 경우에 사용할 수 있는 지, 맥니마 검정과 코크란 Q검정에 대해서 알아봅니다. 대략적인 통계 배경지식이 있으신 분들이나 ADP 준비 중이신 분들에게 도움이 될 것 같습니다. 비모수 검정방법 비모수 검정방법은 지난 포스팅에서 말했듯이, 모집단의 ..
들어가기 전에 최근 ADP 실기 시험을 준비하면서 통계분석과 기계학습에 대해서 차근차근 다시 공부해보고 있는 와중에 처음 들어보는 검정 방법을 알게 되면서 이 글을 작성하게 되었습니다. 아무래도 우리에게 친숙한 T검정이나 ANOVA 등 모수검정에 활용되는 방법들은 많이 알고 있지만, 맥니마 검정, 코크란 Q검정 등에 대해 작성해보고자 합니다. 실제 회사의 데이터들을 활용해서 가설검정을 하다보면, 표본은 작고, 모수검정을 활용하기엔 정규성 만족을 안하던가, 등분산성 만족을 하지 못해 비모수검정을 해야할 때가 종종 발생하는데, 이 기회에 새로운 검정방법에 대해서 공부하고, 이를 잘 써먹어보고자 글을 작성합니다. 이 글에서는 모수 검정과 비모수 검정의 정의, 한 가지 예시를 들어 동일한 데이터에 대해 모수와 ..
아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 지난 포스팅에서 determinant에 대해 다뤄봤습니다. 오늘은 선형대수학에서 가장 중요한 부분을 담당하는 eigenvalue, eigenvector과 diagonalzation에 대해 소개해보도록 하겠습니다. 1. EigenValue, EigenVector Eigenvalue(고윳값), Eigenvector(고유 벡터)는 앞에서 이야기했듯이, 선형대수학에서 중요한 개념입니다. Eigenvalue는 인구 성장, 미분방정식, 공학, 과학 등에서 기본이 되는 개념이라 그런지 많이 중요한 것 같습니다. 그러면, 각각에 대한 ..
지난 포스팅에서 차원 축소에 대해 간단하게 다뤄봤습니다. 차원 축소를 다루기 위해서는 생각보다 많은 선형대수학 개념들이 따라오게 됩니다. 오늘은 차원 축소를 이해하기 위해 사용되는 선형대수학 내용들을 간략하게 소개하고, 설명해보도록 하겠습니다. 아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 위의 그림에서 노란색 부분에 대한 개념들 중 determinant에 대해 아래에서 소개해보도록 하겠습니다. Determinant(행렬식) 2차 행렬 determinant 구하기 보통 Determinant는 고등학교 수학에서 행렬을 배울 때, 가장 먼저 접하게 되는 내용 중에 하나입..
머신러닝 모델을 만들기 위해 EDA(Exploratory Data Analysis)라는 과정을 거치게 됩니다. EDA를 진행하면서 어떤 변수가 우리의 모델에 얼마나 영향을 주는지 확인하기 위해 다양한 방법을 사용합니다. 시각화를 통해 변수 간의 관계를 살펴보기도 하고, 상관계수를 뽑아서 얼마나 Target에 영향을 주는지 살펴보기도 합니다. 여기서 상관계수처럼 한가지의 score로 표현해야 어떤 변수가 상대적으로 더 관계가 있는지를 확인할 수 있습니다. 오늘은 각 input과 output에 따라 scoring 하는 방법에 대해 간단하게 소개하고 Category 변수간의 관계를 표현하는 방법인 Mutual Information(상호정보량)에 대해서 다뤄보겠습니다. 1. Feature Selection Sc..
최근 feature가 많은 정형 데이터를 다루다 보니, 어떻게 하면 효과적인 모델링을 할 수 있을 지 살펴보던 중 차원 축소 내용을 정리할 필요가 있다고 생각하여 정리해보려고 합니다. 다른 분들에게도 해당 글이 도움이 되셨으면 좋겠습니다. 이번 포스팅에서는 차원 축소에 대한 소개와 PCA, LDA, SVD에 대해 간단하게 설명합니다. 1. 차원 축소 차원 축소는 많은 feature를 가진 데이터의 차원을 축소해서 새로운 차원의 데이터를 구성하는 것입니다. 여기서, 축소라는 단어에서 알 수 있듯이 고차원의 데이터를 저차원의 데이터로 만듭니다. 일반적으로 차원이 증가하면, 데이터 간의 거리가 기하급수적으로 증가하게 되어 희소한 구조를 가지게 됩니다. 또한 feature가 많을 때에는 feature 끼리의 상..
Sooho_Kim
'학습포스팅' 카테고리의 글 목록