전체 글

SOOHO 개발공부노트
아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 지난 포스팅에서 determinant에 대해 다뤄봤습니다. 오늘은 선형대수학에서 가장 중요한 부분을 담당하는 eigenvalue, eigenvector과 diagonalzation에 대해 소개해보도록 하겠습니다. 1. EigenValue, EigenVector Eigenvalue(고윳값), Eigenvector(고유 벡터)는 앞에서 이야기했듯이, 선형대수학에서 중요한 개념입니다. Eigenvalue는 인구 성장, 미분방정식, 공학, 과학 등에서 기본이 되는 개념이라 그런지 많이 중요한 것 같습니다. 그러면, 각각에 대한 ..
지난 포스팅에서 차원 축소에 대해 간단하게 다뤄봤습니다. 차원 축소를 다루기 위해서는 생각보다 많은 선형대수학 개념들이 따라오게 됩니다. 오늘은 차원 축소를 이해하기 위해 사용되는 선형대수학 내용들을 간략하게 소개하고, 설명해보도록 하겠습니다. 아래의 그림은 Mathematics for Machine Learning이라는 책에서 발췌한 그림입니다. 차원 축소를 이해하기 위해 어떠한 개념들이 필요한 지 표현하고 있는 그림입니다. 위의 그림에서 노란색 부분에 대한 개념들 중 determinant에 대해 아래에서 소개해보도록 하겠습니다. Determinant(행렬식) 2차 행렬 determinant 구하기 보통 Determinant는 고등학교 수학에서 행렬을 배울 때, 가장 먼저 접하게 되는 내용 중에 하나입..
머신러닝 모델을 만들기 위해 EDA(Exploratory Data Analysis)라는 과정을 거치게 됩니다. EDA를 진행하면서 어떤 변수가 우리의 모델에 얼마나 영향을 주는지 확인하기 위해 다양한 방법을 사용합니다. 시각화를 통해 변수 간의 관계를 살펴보기도 하고, 상관계수를 뽑아서 얼마나 Target에 영향을 주는지 살펴보기도 합니다. 여기서 상관계수처럼 한가지의 score로 표현해야 어떤 변수가 상대적으로 더 관계가 있는지를 확인할 수 있습니다. 오늘은 각 input과 output에 따라 scoring 하는 방법에 대해 간단하게 소개하고 Category 변수간의 관계를 표현하는 방법인 Mutual Information(상호정보량)에 대해서 다뤄보겠습니다. 1. Feature Selection Sc..
한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다. 대한민국에서 태어나고 자란 분이라면 누구나 한 번쯤은 파워포인트를 다뤄본 적이 있을 것입니다. 파워포인트는 잘하든 못하든 그것과 상관없이 접해봤던 프로그램입니다. 모두가 해봤지만 잘한다고 당당하게 말하기가 굉장히 어려운 프로그램이기도 합니다. 데이터 분석 업무를 진행하다 보면, 누군가를 설득하기 위해 파워포인트를 사용할 때가 종종 있습니다. 그럴 때마다 어떻게 하면 정보를 잘 전달하고, 짧은 시간에 효율적으로 파워포인트를 만들어 낼 수 있을 지에 대해 고민하게 됩니다. 이 책은 그러한 부분을 어느 정도 담아낸 책이라고 생각합니다. 1. 대상 독자 및 목차 소개 이 책은 파워포인트를 조금 더 잘 다루고 싶은 사람, 처음 파워포인트를 배우는 사람에게..
최근 feature가 많은 정형 데이터를 다루다 보니, 어떻게 하면 효과적인 모델링을 할 수 있을 지 살펴보던 중 차원 축소 내용을 정리할 필요가 있다고 생각하여 정리해보려고 합니다. 다른 분들에게도 해당 글이 도움이 되셨으면 좋겠습니다. 이번 포스팅에서는 차원 축소에 대한 소개와 PCA, LDA, SVD에 대해 간단하게 설명합니다. 1. 차원 축소 차원 축소는 많은 feature를 가진 데이터의 차원을 축소해서 새로운 차원의 데이터를 구성하는 것입니다. 여기서, 축소라는 단어에서 알 수 있듯이 고차원의 데이터를 저차원의 데이터로 만듭니다. 일반적으로 차원이 증가하면, 데이터 간의 거리가 기하급수적으로 증가하게 되어 희소한 구조를 가지게 됩니다. 또한 feature가 많을 때에는 feature 끼리의 상..
해당 포스팅은 Mastering OpenCV 4 with Python 원서를 바탕으로 작성했습니다. 원서를 옮기는 과정에서 부자연스러운 부분이 있을 수 있습니다. 잘못 작성되거나 어색한 부분에 대해서 알려주시면 감사하겠습니다! 코드 정보는 여기를 클릭하시면 확인하실 수 있습니다. 지난 포스팅에 이어 오늘은 이미지 처리를 위한 방법들 중 kernel을 활용한 방법과 사진을 만화 같은 이미지로 변환하기를 다뤄보겠습니다. 채널 분할 및 병합(Splitting and merging channels) 이미지의 기하학적인 변환 - 회전, 스케일링, 아핀 변환, 자르기 이미지를 사용한 산술 연산 - 비트 연산(AND, OR, XOR, NOT), 마스킹 smoothing and sharpening 기법 모폴로지 연산 ..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 지난 포스팅에서는 분류 평가 지표를 구할 때, 많이 활용되는 개념인 Confusion Matrix부터 Accuracy, F1-score, AUC에 대해 다뤘습니다! 이번에는 수치형 데이터를 예측하는 회귀 문제의 평가 지표들에 대해 알아보려고 합니다! 1. 회귀 문제(Regression) 평가지표를 설명하기 전에 회귀 문제는 어떤 것인지 간단하게 설명해보겠습니다. 회귀 문제는 종속 변수가 수치형으로 해당 수치 값을 예측하는 문제입니다. 예를 들면, 보스턴 지역에 있는 집 값을 예측하거나, 내일의 주식 가격을 예측하는 것처럼 숫자를 예측하는 형태의 문제입니다. 그래서 실제 값과 예측 값의 차이를 활용한 편가 지표들..
ADP 실기를 준비하면서 내용을 정리했습니다. 잘못된 부분이 있으면 알려주시면 감사하겠습니다. 최근 회사 업무와 ADP 공부를 병행하다 보니, 각 모델들의 성능을 비교할 수 있는 지표들을 정리할 필요가 있음을 느끼게 되었습니다. 사이킷런 라이브러리 내에도 수많은 지표들이 구현되어 있는데, 막상 골라서 사용하려니 종류도 많고 어떤 것을 쓰는 것이 좋을까?라는 고민에 늘 빠지곤 했습니다. 저와 같은 고민을 하시는 분들에게 도움이 되고, 각 지표에 대한 이해를 높이고자 이 글을 작성해봅니다. 1. 평가 지표(Metrics)란 무엇인가? 머신러닝에서 말하는 평가 지표(Metrics)는 어떤 것을 말할까? 평가 지표(Metrics)는 쉽게 말하면 모델의 성능을 숫자로 표현하는 것을 말합니다. 그리고 이 숫자는 다..
한빛미디어 활동을 위해서 책을 제공받아 작성된 서평입니다. 처음 책의 제목을 들었을 때, "엑셀, 파이썬, R을 다 활용한다고? 파이썬 하나로도 부족할텐데.."라는 생각이 가장 먼저 들었습니다. 하지만, 실제로 제가 업무하는 환경에서는 엑셀로 데이터를 확인할 때도 있고, 파이썬으로 확인할 때도 있었습니다. 기본적으로 "데이터 분석은 파이썬이나 R로 해야되는 것 아니야?"라는 자주했었던 것 같은데, 책의 저자는 엑셀과 코딩은 서로 경쟁의 대상이 아닌, 상호 보완적인 관계라고 설명하고 있습니다. 이 말을 곱씹어보니, 저도 늘 데이터 분석은 파이썬으로 해야지! 라고 생각하면서 실제로는 엑셀 스프레드시트로 확인하는 것이 더 직관적이고 빠를 때가 있다는 것을 알게 되었습니다. 아래에서 이 책의 특징과 어떤 분들이..
· 생각
글또 6기가 올해 1월 초에 종료하고, 어느덧 벚꽃이 지고 5월이 되었습니다. 분명히 카운트 다운했던 것도 엊그제 같은데, 벌써 시간이 흘렀다는 것에 새삼 시간의 빠름을 다시 한번 느끼네요. 이 글을 읽으시는 분들의 시간도 저와 같은가요? 하고 계신 일들, 그리고 계획하신 일들은 차근차근 해내고 계신가요? 만약, 그렇지 않다면 다시 마음을 다잡아가는 계기로 본인에게 피드백을 주면 어떨까요? 오늘은 저의 현재 상태를 살펴보고, 남은 2022년과 글또 기간을 어떠한 방향으로 진행할 지에 대해 작성해보려고 합니다. 1. 2022년 5월까지 회사 5월이 된 지금, 저는 입사한지 6개월 차 신입 데이터 분석가로 지내고 있습니다. 지난 6개월을 돌아보면, 매일 생기는 이슈들에 대응하느라 정신없는 시기였던 것 같습니..
Sooho_Kim
SOOHOCODE