학습포스팅/머신러닝

아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 지난 포스팅에서 determinant에 대해 다뤄봤습니다. 오늘은 선형대수학에서 가장 중요한 부분을 담당하는 eigenvalue, eigenvector과 diagonalzation에 대해 소개해보도록 하겠습니다. 1. EigenValue, EigenVector Eigenvalue(고윳값), Eigenvector(고유 벡터)는 앞에서 이야기했듯이, 선형대수학에서 중요한 개념입니다. Eigenvalue는 인구 성장, 미분방정식, 공학, 과학 등에서 기본이 되는 개념이라 그런지 많이 중요한 것 같습니다. 그러면, 각각에 대한 ..
지난 포스팅에서 차원 축소에 대해 간단하게 다뤄봤습니다. 차원 축소를 다루기 위해서는 생각보다 많은 선형대수학 개념들이 따라오게 됩니다. 오늘은 차원 축소를 이해하기 위해 사용되는 선형대수학 내용들을 간략하게 소개하고, 설명해보도록 하겠습니다. 아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 위의 그림에서 노란색 부분에 대한 개념들 중 determinant에 대해 아래에서 소개해보도록 하겠습니다. Determinant(행렬식) 2차 행렬 determinant 구하기 보통 Determinant는 고등학교 수학에서 행렬을 배울 때, 가장 먼저 접하게 되는 내용 중에 하나입..
머신러닝 모델을 만들기 위해 EDA(Exploratory Data Analysis)라는 과정을 거치게 됩니다. EDA를 진행하면서 어떤 변수가 우리의 모델에 얼마나 영향을 주는지 확인하기 위해 다양한 방법을 사용합니다. 시각화를 통해 변수 간의 관계를 살펴보기도 하고, 상관계수를 뽑아서 얼마나 Target에 영향을 주는지 살펴보기도 합니다. 여기서 상관계수처럼 한가지의 score로 표현해야 어떤 변수가 상대적으로 더 관계가 있는지를 확인할 수 있습니다. 오늘은 각 input과 output에 따라 scoring 하는 방법에 대해 간단하게 소개하고 Category 변수간의 관계를 표현하는 방법인 Mutual Information(상호정보량)에 대해서 다뤄보겠습니다. 1. Feature Selection Sc..
최근 feature가 많은 정형 데이터를 다루다 보니, 어떻게 하면 효과적인 모델링을 할 수 있을 지 살펴보던 중 차원 축소 내용을 정리할 필요가 있다고 생각하여 정리해보려고 합니다. 다른 분들에게도 해당 글이 도움이 되셨으면 좋겠습니다. 이번 포스팅에서는 차원 축소에 대한 소개와 PCA, LDA, SVD에 대해 간단하게 설명합니다. 1. 차원 축소 차원 축소는 많은 feature를 가진 데이터의 차원을 축소해서 새로운 차원의 데이터를 구성하는 것입니다. 여기서, 축소라는 단어에서 알 수 있듯이 고차원의 데이터를 저차원의 데이터로 만듭니다. 일반적으로 차원이 증가하면, 데이터 간의 거리가 기하급수적으로 증가하게 되어 희소한 구조를 가지게 됩니다. 또한 feature가 많을 때에는 feature 끼리의 상..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 지난 포스팅에서는 분류 평가 지표를 구할 때, 많이 활용되는 개념인 Confusion Matrix부터 Accuracy, F1-score, AUC에 대해 다뤘습니다! 이번에는 수치형 데이터를 예측하는 회귀 문제의 평가 지표들에 대해 알아보려고 합니다! 1. 회귀 문제(Regression) 평가지표를 설명하기 전에 회귀 문제는 어떤 것인지 간단하게 설명해보겠습니다. 회귀 문제는 종속 변수가 수치형으로 해당 수치 값을 예측하는 문제입니다. 예를 들면, 보스턴 지역에 있는 집 값을 예측하거나, 내일의 주식 가격을 예측하는 것처럼 숫자를 예측하는 형태의 문제입니다. 그래서 실제 값과 예측 값의 차이를 활용한 편가 지표들..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 최근 회사 업무와 ADP 공부를 병행하다 보니, 각 모델들의 성능을 비교할 수 있는 지표들을 정리할 필요가 있음을 느끼게 되었습니다. 사이킷런 라이브러리 내에도 수많은 지표들이 구현되어 있는데, 막상 골라서 사용하려니 종류도 많고 어떤 것을 쓰는 것이 좋을까?라는 고민에 늘 빠지곤 했습니다. 저와 같은 고민을 하시는 분들에게 도움이 되고, 각 지표에 대한 이해를 높이고자 이 글을 작성해봅니다. 1. 평가 지표(Metrics)란 무엇인가? 머신러닝에서 말하는 평가 지표(Metrics)는 어떤 것을 말할까? 평가 지표(Metrics)는 쉽게 말하면 모델의 성능을 숫자로 표현하는 것을 말합니다. 그리고 이 숫자는 다..
Sooho_Kim
'학습포스팅/머신러닝' 카테고리의 글 목록