해당 내용은 Datacamp의 Data engineering track을 정리했습니다. Data engineering for everyone의 chapter 1에 대한 내용입니다. 해당 포스팅에는 아래의 내용을 포함하고 있습니다. 데이터 엔지니어링은 무엇인가? 빅데이터와 어떻게 관련이 있는지, 데이터 엔지니어와 데이터 사이언티스트의 차이 데이터 엔지니어가 구축하는 데이터 파이프라인이란 무엇인가? 1. Data engineering and big data 어느 조직이든지 데이터는 아래와 같은 흐름으로 진행됩니다. 데이터 수집과 저장 (ex. 웹 트래픽, 설문조사 등 다양한 데이터를 수집하고 저장) 데이터 준비 (ex. 데이터 정리, NULL 데이터, 중복 데이터 확인, 데이터 형식 변환) 데이터 탐색 및 ..
전체 글
SOOHO 개발공부노트해당 논문은 2016년 CVPR 학회에 Microsoft에서 발표한 논문입니다. 논문에 대한 전문을 보시려면 여기를 클릭하세요. 혹시 잘못된 내용이 있으면 언제든지 댓글 부탁드립니다! 지난 Paper Review에서는 Resnet의 논문에 대해 알아봤습니다. 이번에도 동일하게 Microsoft에서 Resnet의 논문이 왜 좋은 성능이 나왔는지와 다양한 시도를 통해 개선된 Resnet을 제안하는 논문입니다. 1. 논문 정리 Abstract 지난 논문인 "Deep Residual Learning for Image Recognition"이 깊은 모델 구조에서도 좋은 성능을 보여줬습니다. 이 논문에서는 Residual building block에서의 propagation formulations을 분석합니다. a..
해당 논문은 2016년 CVPR에 Microsoft Research에서 발표한 논문입니다. 논문에 대한 전문을 보시려면 여기를 클릭하세요. 혹시 잘못된 내용이 있으면 언제든지 댓글 부탁드립니다! 최근 프로젝트 내용들을 정리하다가 residual connections이 어떻게 degradation 문제를 해결할 수 있었는지에 대해 알기 위해 작성했습니다. 글을 작성하는 시점인 8월 12일 기준으로 약 85000회 인용이 된 논문입니다. 그만큼 중요한 논문이라고 할 수 있습니다. 논문 내용은 Abstract부분부터 순차적으로 정리했으나, 일부 겹치는 부분들이 있습니다. 또한 Related Work에 대한 내용들은 다루지 않은 부분도 있으니 참고하시면 좋을 것 같습니다. 1. 논문 정리 Abstract Neu..
이 글은 앞으로 6개월 간 참여할 글또 다짐글입니다. 글또는 "글쓰는 또라이가 세상을 바꾼다"라는 글 쓰는 개발자 모임입니다. 1. 다시 글또를 신청한 이유 지난 글또 5기를 참여하면서 크게 2가지 성과를 달성할 수 있었습니다. 첫 번째, 공부한 것들을 정리하다 보니, 좀 더 정확한 내용을 전달하기 위해 더 깊게 공부할 수 있었습니다. 두 번째, 다양한 사람들의 글을 읽으면서 많이 배울 수 있었습니다. 하지만, 글또가 끝나자마자 "끝났어도 블로그 글은 꾸준히 작성해야지"라고 했던 다짐은 지키지 못했습니다. 그래서 꾸준히 공부한 내용을 잘 정리하기 위해 글또를 신청하게 되었습니다. 2. 목표 1) 취업하기 이번 글또 기간은 2021년의 하반기에 해당됩니다. 그래서 이번 글또 기간 안에 취업을 목표로 노력해..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. Competition을 하다보니, 하루 하루 정리하기가 어려워서 주말을 활용해서 작성했습니다. 1. 실행 내용 1) mmDetection 라이브러리 이해하기 Object Detection에서는 mmdetection이라는 라이브러리를 사용해서 다양한 모델을 학습시킬 수 있습니다. 최근에 만들어진 새로운 모델들도 최대한 지원하려고 하고 있으며, config를 수정해서 쉽게 접근할 수 있습니다. 쉬운 만큼 폴더 구조나 구성이 어떻게 되는지를 충분하게 이해할 필요가 있습니다. 모델이 학습하기 위해서는 dataset.py, default_runtime.py, schedule.py, model.py가 필요합니다. dataset은 ..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 학습정리를 따로 적지 못해서 한 포스팅에 모두 작성했습니다. 1. 목표 Efficientnet-B7 결과 및 최적의 모델 찾기 최적의 augmentation 찾기 TTA 적용하기 2. 진행 내용 1) Efficientnet-B7 결과 및 최적의 모델 찾기 Efficientnet-B7을 Deeplabv3+에 적용시켜서 학습해보니, 1에폭 당 많은시간이 소요되었습니다. 이를 public에 넣었을 때, 0.6의 mIoU값을 얻었습니다. 이 모델을 계속 활용하게 되면, 많은 실험을 해보지 못하기 때문에 해당 모델은 활용하지 않았습니다. 그나마 성능은 괜찮으면서 빠르게 학습할 수 있었던 se-resnext101_32x4d라는 모..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 추가적인 Augmentation 적용 DeeplabV3+ 구조에 efficientnet-b7으로 학습하기 2. 진행 내용 1) 추가적인 Augmentation 적용 오늘은 3가지 augmentation을 테스트해보고 mobilenetv2로 학습해보며 테스트했습니다. CropNonEmptyMaskIfExists는 mask의 존재여부를 확인하고 잘라내는 augmentation입니다. 256으로 잘라서 512로 resize한 것과 512로 자른 것 중에는 256으로 자른 것이 더 좋은 성능을 보였습니다. 그 이유는 대부분의 이미지가 512로 되어 있어서 크게 영향이 없었던 것으로 판단됩니다. InvertImg (V..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 강의 High Performance를 자랑하는 Unet 계열의 모델들 1) U-Net U-Net은 Biomedical 분야뿐만 아니라, 다양한 분야에서 좋은 성능을 보여주고 있습니다. 특히 medical 분야는 데이터가 부족합니다. 고급인력인 전문가들이 직접 라벨링을 해줘야 하기 때문에 데이터 수집이 쉽지 않습니다. 그리고 의료 데이터의 경우 같은 클래스가 인접한 셀 구분할 필요가 있습니다. 하지만, 일반적인 Semantic Segmentation에서는 이것을 구분하기가 굉장히 어렵습니다. 그래서 이것들을 해결하기 위해 만들어진 구조가 바로 U-Net입니다. U-Net은 입력 이미지의 전반적인 특징을 추출하고 차원..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 DilatedNetFront_context Model 학습해보기 U-Net으로 학습해보기 2. 진행 내용 1) DilatedNetFront_context Model 학습해보기 vgg16을 backbone 모델로 활용하고, pretrained weight를 불러와서 학습을 진행했습니다. V100 기준으로 20에폭 도는 동안 6시간 정도로 오래걸렸습니다. 학습 결과는 0.3563로 나왔습니다. 2) U-Net으로 학습해보기 smp라는 오픈소스를 활용해서 pretrained 모델을 활용할 수 있습니다. Unet의 구조에 backbone으로 resnet34와 efficientnet-b7을 사용했습니다. resnet3..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 Baseline으로 학습해보기 DilatedNetFront, DilatedNetFront_context 모델 구현/학습해보기 2. 진행 내용 1) Baseline 학습해보기 Baseline으로 주어진 모델은 FCN8s으로 구성되어 있었습니다. 20에폭 돌아가는 동안 생각보다 빠르게 학습이 되었습니다. submission 결과는 mIoU가 0.3340이 나왔습니다. 2) DilatedNet 모델 구현 Dilated Convolution은 image의 크기를 적게 줄이면서 효율적인 receptive field를 넓히는 방법입니다. 이 방법을 활용하면 Receptive field는 커지고, parameter는 줄어..