해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 텍스트 파일, JSON 파일, Web, Databases에서 데이터 추출하기 Transforms의 종류, Pyspark에서의 Transform, table join 분석용 Database와 어플리케이션용 Database의 차이, MPP Databases, 변환된 데이터 프레임을 SQL 프레임으로 변경하기 Airflow에서 ETL function 구현하기 1. Extract 데이터를 추출한다는 것은 데이터 처리에 적합하지 않은 영구 저장소의 데이터를 메모리로 추출하는 것을 ..
학습포스팅
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터베이스, SQL과 NoSQL, schema 병렬 처리란 무엇인가? 병렬 처리를 위한 프레임 워크 1. Databases 앞에서 많은 강의에서 데이터베이스에 대한 내용을 다뤘습니다. 한번 더 정리하면, 데이터베이스는 데이터 엔지니어에겐 필수적인 데이터 관리 도구입니다. 데이터베이스의 기본적인 뜻은 빠른 검색을 위해 구성된 데이터 모음이라고 표현할 수 있습니다. 많은 데이터를 가지고 있으며, DBMS를 통해 검색할 수 있습니다. 파일 시스템과는 규모적인 측면이나 업무를 ..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Introduction to data engineering의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터 엔지니어링의 개념 데이터 엔지니어가 사용하는 툴에 대한 내용 ETL Datacamp에서의 데이터 엔지니어링 1. What is data engineering? 만약 당신이 어떤 기업의 고객 이탈을 예측하는 데이터 과학자라고 가정해봅시다. 입사해보니, 데이터는 이곳저곳에 흩어져있으며, 분석에 최적화되어 있지 않습니다. 또한 레거시 코드(가독성이 떨어진 코드, 규약이 없는 경우, 임시로 코드를 작성한 경우)에 의해 데이터 손상이 일어나고 있습니다. 이러한 경우 누가 해..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 3에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. Processing data Scheduling data Parallel computing Cloud computing 1. Processing data 데이터 프로세싱은 가공되지 않은 데이터를 가공하여 의미있는 정보로 바꾸는 과정을 말합니다. 데이터 프로세싱 과정은 필요없는 데이터를 삭제하기도 하고, 메모리, 네트워크 비용 등의 최적화를 위해 진행하기도 합니다. 또한 다른 형태로 바꾸기 위한 변환 과정도 포함합니다. 데이터 레이크에 존재하는 데이터들을 가공하여 데이터 웨어하우..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 2에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터의 종류(정형, 반정형, 비정형) SQL Data warehouse, data lake 1. Data structures 가장 먼저, 정형 데이터는 쉽게 검색하고 구성할 수 있습니다. 열과 행으로 이뤄진 스프레드시트와 같은 엄격한 구조에 따라 입력됩니다. 각 열은 텍스트, 숫자, 논리 값 등 특정 유형의 값을 사용합니다. 이러한 정형 데이터는 관계를 표현하기 쉽습니다. 정형 데이터는 약 20% 정도의 비중을 차지하고, 각 데이터에 접근하거나 수정과 같은 작업을 수행할 때에..
해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터 엔지니어링은 무엇인가? 빅데이터와 어떻게 관련이 있는지, 데이터 엔지니어와 데이터 사이언티스트의 차이 데이터 엔지니어가 구축하는 데이터 파이프라인이란 무엇인가? 1. Data engineering and big data 어느 조직이든지 데이터는 아래와 같은 흐름으로 진행됩니다. 데이터 수집과 저장 (ex. 웹 트래픽, 설문조사 등 다양한 데이터를 수집하고 저장) 데이터 준비 (ex. 데이터 정리, NULL 데이터, 중복 데이터 확인, 데이터 형식 변환) 데이터 탐색 및 ..
해당 논문은 2016년 CVPR 학회에 Microsoft에서 발표한 논문입니다. 논문에 대한 전문을 보시려면 여기를 클릭하세요. 혹시 잘못된 내용이 있으면 언제든지 댓글 부탁드립니다! 지난 Paper Review에서는 Resnet의 논문에 대해 알아봤습니다. 이번에도 동일하게 Microsoft에서 Resnet의 논문이 왜 좋은 성능이 나왔는지와 다양한 시도를 통해 개선된 Resnet을 제안하는 논문입니다. 1. 논문 정리 Abstract 지난 논문인 "Deep Residual Learning for Image Recognition"이 깊은 모델 구조에서도 좋은 성능을 보여줬습니다. 이 논문에서는 Residual building block에서의 propagation formulations을 분석합니다. a..
해당 논문은 2016년 CVPR에 Microsoft Research에서 발표한 논문입니다. 논문에 대한 전문을 보시려면 여기를 클릭하세요. 혹시 잘못된 내용이 있으면 언제든지 댓글 부탁드립니다! 최근 프로젝트 내용들을 정리하다가 residual connections이 어떻게 degradation 문제를 해결할 수 있었는지에 대해 알기 위해 작성했습니다. 글을 작성하는 시점인 8월 12일 기준으로 약 85000회 인용이 된 논문입니다. 그만큼 중요한 논문이라고 할 수 있습니다. 논문 내용은 Abstract부분부터 순차적으로 정리했으나, 일부 겹치는 부분들이 있습니다. 또한 Related Work에 대한 내용들은 다루지 않은 부분도 있으니 참고하시면 좋을 것 같습니다. 1. 논문 정리 Abstract Neu..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. Competition을 하다보니, 하루 하루 정리하기가 어려워서 주말을 활용해서 작성했습니다. 1. 실행 내용 1) mmDetection 라이브러리 이해하기 Object Detection에서는 mmdetection이라는 라이브러리를 사용해서 다양한 모델을 학습시킬 수 있습니다. 최근에 만들어진 새로운 모델들도 최대한 지원하려고 하고 있으며, config를 수정해서 쉽게 접근할 수 있습니다. 쉬운 만큼 폴더 구조나 구성이 어떻게 되는지를 충분하게 이해할 필요가 있습니다. 모델이 학습하기 위해서는 dataset.py, default_runtime.py, schedule.py, model.py가 필요합니다. dataset은 ..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 학습정리를 따로 적지 못해서 한 포스팅에 모두 작성했습니다. 1. 목표 Efficientnet-B7 결과 및 최적의 모델 찾기 최적의 augmentation 찾기 TTA 적용하기 2. 진행 내용 1) Efficientnet-B7 결과 및 최적의 모델 찾기 Efficientnet-B7을 Deeplabv3+에 적용시켜서 학습해보니, 1에폭 당 많은시간이 소요되었습니다. 이를 public에 넣었을 때, 0.6의 mIoU값을 얻었습니다. 이 모델을 계속 활용하게 되면, 많은 실험을 해보지 못하기 때문에 해당 모델은 활용하지 않았습니다. 그나마 성능은 괜찮으면서 빠르게 학습할 수 있었던 se-resnext101_32x4d라는 모..