유데미에서 Python 부트캠프 : 100개의 프로젝트로 Python 개발 완전 정복 강의를 지원받아 작성한 포스팅입니다. 포스팅 내용은 Day 32일 차에 대한 프로젝트 내용을 담고 있습니다. 강의에 대한 전반적인 느낌 파이썬을 공부하다 보면, 파이썬 기초부터 객체지향 등 공부해야 하는 것들이 무수히 많다는 것을 느낍니다. 이 강의의 가장 좋은 점은 맨 첫 강의에서 오늘 만들어낼 결과물에 대한 소개하고, 해당 기능을 구현하기 위한 최소 단위의 내용을 배웁니다. 강의 중간에는 강사님께서 혼자 고민해 보고 작성해 볼 수 있도록 제안하는 부분이 많이 도움이 되는 것 같습니다. 단순히, 강의만 듣고 끝나는 것이 아니라 직접 고민해 보고 작성해 보고 정답과 비교해 보는 것을 통해 피드백받을 수 있었습니다. 오늘..
학습포스팅
들어가기 전에 지난 포스팅에서는 비모수 검정과 모수 검정에 대한 간략한 소개를 했습니다. 그리고 사내에 새로운 교육을 실시하는 예시를 통해, 가설 검정하는 순서와 비모수 검정과 모수 검정을 했을 때의 차이에 대해서 다뤘습니다. 해당 내용이 궁금하시다면 여기를 클릭하시면 확인하실 수 있습니다. 오늘은 지난 포스팅에서 소개하지 못한 맥니마 검정, 코크란 Q검정에 대해서 작성해보려고 합니다. 이 포스팅에서는 비모수 검정방법에 대한 간략한 소개, 각 가설검정 방법이 어떤 경우에 사용할 수 있는 지, 맥니마 검정과 코크란 Q검정에 대해서 알아봅니다. 대략적인 통계 배경지식이 있으신 분들이나 ADP 준비 중이신 분들에게 도움이 될 것 같습니다.비모수 검정방법 비모수 검정방법은 지난 포스팅에서 말했듯이, 모집단의 분..
들어가기 전에 최근 ADP 실기 시험을 준비하면서 통계분석과 기계학습에 대해서 차근차근 다시 공부해보고 있는 와중에 처음 들어보는 검정 방법을 알게 되면서 이 글을 작성하게 되었습니다. 아무래도 우리에게 친숙한 T검정이나 ANOVA 등 모수검정에 활용되는 방법들은 많이 알고 있지만, 맥니마 검정, 코크란 Q검정 등에 대해 작성해보고자 합니다. 실제 회사의 데이터들을 활용해서 가설검정을 하다보면, 표본은 작고, 모수검정을 활용하기엔 정규성 만족을 안하던가, 등분산성 만족을 하지 못해 비모수검정을 해야할 때가 종종 발생하는데, 이 기회에 새로운 검정방법에 대해서 공부하고, 이를 잘 써먹어보고자 글을 작성합니다. 이 글에서는 모수 검정과 비모수 검정의 정의, 한 가지 예시를 들어 동일한 데이터에 대해 모수와..
아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 지난 포스팅에서 determinant에 대해 다뤄봤습니다. 오늘은 선형대수학에서 가장 중요한 부분을 담당하는 eigenvalue, eigenvector과 diagonalzation에 대해 소개해보도록 하겠습니다. 1. EigenValue, EigenVector Eigenvalue(고윳값), Eigenvector(고유 벡터)는 앞에서 이야기했듯이, 선형대수학에서 중요한 개념입니다. Eigenvalue는 인구 성장, 미분방정식, 공학, 과학 등에서 기본이 되는 개념이라 그런지 많이 중요한 것 같습니다. 그러면, 각각에 대한 ..
지난 포스팅에서 차원 축소에 대해 간단하게 다뤄봤습니다. 차원 축소를 다루기 위해서는 생각보다 많은 선형대수학 개념들이 따라오게 됩니다. 오늘은 차원 축소를 이해하기 위해 사용되는 선형대수학 내용들을 간략하게 소개하고, 설명해보도록 하겠습니다. 아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 위의 그림에서 노란색 부분에 대한 개념들 중 determinant에 대해 아래에서 소개해보도록 하겠습니다. Determinant(행렬식) 2차 행렬 determinant 구하기 보통 Determinant는 고등학교 수학에서 행렬을 배울 때, 가장 먼저 접하게 되는 내용 중에 하나입..
머신러닝 모델을 만들기 위해 EDA(Exploratory Data Analysis)라는 과정을 거치게 됩니다. EDA를 진행하면서 어떤 변수가 우리의 모델에 얼마나 영향을 주는지 확인하기 위해 다양한 방법을 사용합니다. 시각화를 통해 변수 간의 관계를 살펴보기도 하고, 상관계수를 뽑아서 얼마나 Target에 영향을 주는지 살펴보기도 합니다. 여기서 상관계수처럼 한가지의 score로 표현해야 어떤 변수가 상대적으로 더 관계가 있는지를 확인할 수 있습니다. 오늘은 각 input과 output에 따라 scoring 하는 방법에 대해 간단하게 소개하고 Category 변수간의 관계를 표현하는 방법인 Mutual Information(상호정보량)에 대해서 다뤄보겠습니다. 1. Feature Selection Sc..
최근 feature가 많은 정형 데이터를 다루다 보니, 어떻게 하면 효과적인 모델링을 할 수 있을 지 살펴보던 중 차원 축소 내용을 정리할 필요가 있다고 생각하여 정리해보려고 합니다. 다른 분들에게도 해당 글이 도움이 되셨으면 좋겠습니다. 이번 포스팅에서는 차원 축소에 대한 소개와 PCA, LDA, SVD에 대해 간단하게 설명합니다. 1. 차원 축소 차원 축소는 많은 feature를 가진 데이터의 차원을 축소해서 새로운 차원의 데이터를 구성하는 것입니다. 여기서, 축소라는 단어에서 알 수 있듯이 고차원의 데이터를 저차원의 데이터로 만듭니다. 일반적으로 차원이 증가하면, 데이터 간의 거리가 기하급수적으로 증가하게 되어 희소한 구조를 가지게 됩니다. 또한 feature가 많을 때에는 feature 끼리의 상..
해당 포스팅은 Mastering OpenCV 4 with Python 원서를 바탕으로 작성했습니다. 원서를 옮기는 과정에서 부자연스러운 부분이 있을 수 있습니다. 잘못 작성되거나 어색한 부분에 대해서 알려주시면 감사하겠습니다! 코드 정보는 여기를 클릭하시면 확인하실 수 있습니다. 지난 포스팅에 이어 오늘은 이미지 처리를 위한 방법들 중 kernel을 활용한 방법과 사진을 만화 같은 이미지로 변환하기를 다뤄보겠습니다. 채널 분할 및 병합(Splitting and merging channels) 이미지의 기하학적인 변환 - 회전, 스케일링, 아핀 변환, 자르기 이미지를 사용한 산술 연산 - 비트 연산(AND, OR, XOR, NOT), 마스킹 smoothing and sharpening 기법 모폴로지 연산 ..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 지난 포스팅에서는 분류 평가 지표를 구할 때, 많이 활용되는 개념인 Confusion Matrix부터 Accuracy, F1-score, AUC에 대해 다뤘습니다! 이번에는 수치형 데이터를 예측하는 회귀 문제의 평가 지표들에 대해 알아보려고 합니다! 1. 회귀 문제(Regression) 평가지표를 설명하기 전에 회귀 문제는 어떤 것인지 간단하게 설명해보겠습니다. 회귀 문제는 종속 변수가 수치형으로 해당 수치 값을 예측하는 문제입니다. 예를 들면, 보스턴 지역에 있는 집 값을 예측하거나, 내일의 주식 가격을 예측하는 것처럼 숫자를 예측하는 형태의 문제입니다. 그래서 실제 값과 예측 값의 차이를 활용한 편가 지표들..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 최근 회사 업무와 ADP 공부를 병행하다 보니, 각 모델들의 성능을 비교할 수 있는 지표들을 정리할 필요가 있음을 느끼게 되었습니다. 사이킷런 라이브러리 내에도 수많은 지표들이 구현되어 있는데, 막상 골라서 사용하려니 종류도 많고 어떤 것을 쓰는 것이 좋을까?라는 고민에 늘 빠지곤 했습니다. 저와 같은 고민을 하시는 분들에게 도움이 되고, 각 지표에 대한 이해를 높이고자 이 글을 작성해봅니다. 1. 평가 지표(Metrics)란 무엇인가? 머신러닝에서 말하는 평가 지표(Metrics)는 어떤 것을 말할까? 평가 지표(Metrics)는 쉽게 말하면 모델의 성능을 숫자로 표현하는 것을 말합니다. 그리고 이 숫자는 다..