한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
이 책은 데이터분석을 처음하는 분들에게 많이 익숙한 책이라고 생각합니다. 초판은 2013년에 만들어졌는데, 10년이 지난 2023년 5월에 개정 3판이 출시 되었습니다. 10년이 지나서도 개정해서 만든다는 것은 그만큼 많은 분들에게 사랑받았던 책이라고 볼 수 있겠죠. 책을 읽어가면서 어떤 부분이 많이 변경되었는지 확인해보도록 하겠습니다.
1. 대상 독자
이 책은 Pandas, Numpy, Matplotlib, IPython, Jupyter, Scipy, scikit-learn, statsmodels 등 데이터 분석에 많이 활용되는 라이브러리를 다루고 있습니다. 단순히 라이브러리만을 다루기 보단, 라이브러리를 다루기 이전에 튜플, 리스트, 딕셔너리와 같은 자료구조, 함수 작성하는 방법 등 파이썬 기초 내용이 포함되어 있습니다. 데이터분석을 실습과 병행하며 배워보고 싶은 분들에게 추천해보고 싶은 책입니다. 많은 내용을 담고 있다보니, 약 700쪽에 달하지만, 하나 쯤은 가지고 필요할 때마다 보시면서 공부해도 좋을 것 같습니다.
2. 이 책의 특징
1) 책의 구성
이 책은 파이썬의 기초부터 다루고 데이터 분석의 전체의 과정을 순서대로 나열하듯 구성하고 있습니다. Chapter 1~5까지는 데이터 분석을 위한 기초공사로 기본적인 넘파이, 판다스를 다룹니다. Chapter 6 ~ 8 까지는 데이터 전처리에 해당되는 내용을 다룹니다. Chapter 9 ~ 10 에선 EDA때, 데이터 시각화, 통계 값 등을 확인하는 방법을 다룹니다. Chapter 11에서는 정형 데이터가 아닌 시계열 데이터를 다루는 방법을 Chapter 12에서는 통계 모델, 머신러닝 모델 등을 만들 때 활용하는 라이브러리를 다룹니다. Chapter 13에서는 앞에서 배운 내용을 바탕으로 다양한 데이터에서 직접 데이터 분석해볼 수 있습니다.
- Chapter 1 : 시작하기 전에 (데이터 분석에 파이썬을 사용하는 이유, 필수 라이브러리 소개, 설치 및 설정 방법)
- Chapter 2 : 파이썬 기초, IPython과 주피터 노트북
- Chapter 3 : 내장 자료구조, 함수, 파일
- Chapter 4 : 넘파이 기본: 배열과 벡터 연산
- Chapter 5 : 판다스 시작하기
- Chapter 6 : 데이터 로딩과 저장, 파일 형식
- Chapter 7 : 데이터 정제 및 준비
- Chapter 8 : 데이터 준비하기 : 조인, 병합, 변형
- Chapter 9 : 그래프와 시각화
- Chapter 10 : 데이터 집계와 그룹 연산
- Chapter 11 : 시계열
- Chapter 12 : 파이썬 모델링 라이브러리 (statsmodels, scikit-learn, patsy)
- Chapter 13 : 데이터 분석 예제
- Appendix : 고급 넘파이, IPython 시스템 더 알아보기
2) 라이브러리의 디테일한 내용을 포함
저는 실제 회사에서도 회사 데이터를 활용해서 데이터분석을 진행하게 되는데, 항상 사용하는 것들 외에 잘 기억이 안나는 함수나 옵션이 있을 때, 참고가 많이 되었습니다. 항상 csv나 excel 형태로 데이터가 오는 것은 아니고, 각 데이터마다 특징이 다르다보니 다양한 옵션을 활용해야 하는데, 생각보다 디테일한 내용을 많이 담고 있다보니, 옆에 두고 참고하기 좋은 책인 것 같습니다.
위의 그림처럼, 실제로 보고서 작성할 때, 그림 내에 화살표나 글씨 등을 포함할 때가 많은데, 그러한 경우에도 도서를 참고하여 쉽게 그릴 수 있습니다.
3) 다양한 샘플 데이터로 직접 분석
시계열 정보 처리, 영화 평점 데이터, 이름 유행 분석 등 다양한 샘플 데이터로 앞에서 배운 라이브러리를 충분히 익힐 수 있는 것 같습니다. 실제로 회사에서 접할 수 있는 문제들도 해당 예제들을 통해 충분히 접해볼 수 있을 것 같습니다. 더 나아가서 여기에 있는 샘플 데이터 외에도 다양한 샘플 데이터를 활용하여 앞에서 배운 내용을 더 공부해본다면 좋은 경험이 될 것이라고 생각합니다.
3. 총평
데이터 분석에 대해 궁금하지만 어떤 것부터 해야할 지 모른다면 이 책으로 차근차근 따라가시다보면 어느덧 다양한 데이터 분석을 진행할 수 있도록 돕는 책입니다. 파이썬이나 판다스, 넘파이를 좀 다룰 수 있다면 필요한 내용들만 보면서 데이터분석 프로세스를 이해해볼 수 있는 책입니다. 무엇보다, 회사에서 일하시게 되었을 때 옆에 두고 일하면 많은 도움이 될 것 같습니다. 저도 회사에서 필요할 때마다 참고하면서 업무를 진행하고 있답니다. 데이터 분석에 관심있으시다면 꼭 한번 읽어보시길 추천드립니다.