학습포스팅/네이버 부스트캠프

해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 데이터 augmentation 방법 wandb 적용하기 2. 진행 내용 1) 데이터 augmentation 방법 자연어 처리에서의 augmentation 방법에는 여러 가지가 존재하지만, 이번 주어진 데이터는 서로 관계가 있는 라벨들이 존재했습니다. 첫 번째 케이스는 entity1 : entity2 관계가 바뀌어도 라벨이 바뀌지 않는 경우가 존재했습니다. 약 700개 정도에 대해 추가해줬습니다. 이를 동일한 조건에서 테스트한 결과 살짝 성능 향상은 있었습니다. 두 번째 케이스는 entitiy1 : entity2 관계를 바꾸면 다른 라벨로 바뀌는 경우입니다. 이 경우에는 서로 바꿔서 데이터를 늘려줄 수 있다고 ..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. Day 2는 과제하느라, 특별하게 다른 것을 진행한 것이 없었습니다. 그래서 Day3가 Day2가 되었습니다. 1. 목표 Hugging fcae 라이브러리 과제 - 챗봇만들기 2. 진행 내용 1) Hugging face 라이브러리 Hugging face 라이브러리는 자연어처리에서 활용되는 유명한 라이브러리입니다. Transformers라는 라이브러리를 통해, 다양한 모델을 불러올 수 있고, 자동으로 토큰화해주기도 합니다. 또한 pre-trained 모델도 지원해주고 있습니다. 만약, 자연어처리를 공부하신다면, 꼭 한번 보시는 것을 추천드립니다. 2) 챗봇 만들기 오늘 만들어 본 챗봇은 짝으로 이뤄진 QA 데이터를 활용해..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 오늘의 Further Question 살펴보기 Baseline 코드 1회 이상 제출해보기 데이터 살펴보기 2. 진행 내용 1) Further Question 임베딩 평가 방법 임베딩 평가 방법에는 유사도 검사와 유추 평가가 있습니다. 먼저, 유사도 검사는 대표적으로 wordsim353이 존재합니다. Wordsim353은 353개의 영어 단어쌍과 해당 단어쌍의 유사도/관련도를 소수의 영어화자가 평가한 점수의 평균으로 구성됩니다. 예를 들면, Tiger-cat은 7.35로 유사하다고 판단하고 있습니다. 이처럼 각 단어쌍에 해당하는 2가지 단어 벡터의 코사인 유사도의 분포와 이 유사도/관련도 점수의 분포가 얼마나 ..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 시도했으나 잘 되지 않았던 것들 CenterCrop 224는 생각보다 적은 범위를 잡아서 특정 위치를 잡아내지 못하는 이미지도 가끔 존재했습니다. 이를 보완하고자 최대 크기인 384로 CenterCrop 후 resize하는 방식을 선택했습니다. 이미지를 전체 확인해보려고 했으나, 너무 많은 용량이 포함되면서 EDA 파일이 안열리는 현상이 발생했었습니다. 다음에는 나눠서 print해보는 것이 좋을 것 같습니다. StepLR을 적용했을 때, 처음에 빠르게 수렴하는 경우에는 2에폭마다 줄여주면 좋은 효과를 얻었지만 천천히 수렴하는 모델의 경우 유의미한 결과를 보기에는 시간적인 비용이 크게 작용했습니다. 2. 학습과정에서..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 B3, B0 모델 학습하고 성능확인 Resnet, B3, B0 앙상블하기 2. 진행 내용 1) B3, B0 모델 학습하고 성능 확인하기 Resnet50 train_file = processed0(증강 후 50000만장) resize = (224, 224) transforms = CenterCrop(384, 384), Resize(224, 224), ColorJitter(brightness=0.3, contrast=0.3), RandomHorizontalFlip(p=0.5), Normalize batch_size = 32 lr = 1e-4, lr_scheduler = StepLR( Adam, 3, gamma=0..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 Dataset.py, train.py 수정하기 Resnet50 사용해보기 데이터 증강해서 돌려보기 2. 진행 내용 1) Dataset.py, train.py 수정하기 Dataset에 클래스 부족한 것들의 데이터를 추가하기 위한 함수를 추가했습니다. train.py의 training 과정을 일부 수정했습니다. 2) Resnet50 사용해보기 Resnet을 수렴하게 하기 위해 StepLR을 적용해봤습니다. 생각보다 3 Epoch마다 변경해주도록 하니, 잘 수렴했습니다. 하지만, 결과는 생각보다 좋지 않았습니다. 3) 데이터 증강해서 돌려보기 데이터 증강을 위해 Dataset에 클래스 별로 이름을 list에 추가하..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 층화추출을 위한 데이터 나누는 작업 Albumentaions 적용해보기 2. 진행 내용 1) 층화추출을 위한 데이터 나누는 작업 shutil.copytree를 사용하면 가능합니다. 하지만, python 3.8버전에서는 dirs_exists_ok라는 parameter가 존재하지만, 3.7에서는 존재하지 않아서, 해당 디렉토리로 이동해서 저장하는 것으로 변경했습니다. 2) Albumentaions Albumentations의 경우 transform과 크게 다르지 않은 형태를 가지고 있지만, 돌려봤을 때, 오류가 발생해서 이부분에 대해서는 내일 보완이 필요할 것 같습니다. 3. 회고 이제 2일정도 남았습니다. 마지..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 dataset : train, valid를 폴더별로 나누기, 학습 클래스가 부족한 것에 대한 처리 Model : EfficientNet 사용해보기 데이터셋 전체 표시해서 확인하기 2. 진행 내용 1) Dataset train, valid를 물리적으로 분리해보기로 했습니다. 이유는 폴더 내에 같은 사람의 사진이 7장 찍혀있는데, 랜덤으로 이미지를 가져갈 경우, valid 평가에서 문제가 발생할 수 있을 것이라고 생각했습니다. 학습 샘플이 고정되는 문제가 있을 것 같지만 이 부분은 추후 처리해주는 방법을 생각해봐야겠습니다. train, validation 나눠서 적용한 것이 이전에 돌렸던 것보다 많은 상승효과가 ..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 transform 다양하게 적용해보기 Inceptionv3 pre-trained 모델로 학습해보기 2. 진행 내용 1) transform 다양하게 적용해보기(Albumentations 라이브러리 활용도 가능) ColorJitter(brightness=[min, max], contrast=[min, max], saturation=[min, max], hue=[-hue, hue]) 명도(brightness) : 이미지의 밝기 대비(contrast) : 상대적인 밝기, 이미지 명암 채도(Saturation) : 색상의 순색 색조(Hue) : 색상 RandomHorizontalFlip(p=0.5) p확률로 좌우 반전..
해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다. 1. 목표 Dataloader 완성 transform.compose로 다양하게 시각화 해보기 빠르게 제출해보기 2. 진행 내용 1) Dataloader 완성 Dataloader는 기본적으로, __init__, __getitem__, __len__가 정의가 되어야 합니다. __init__에서는 필요한 속성을 정의하고, 이미지 리스트를 담는 작업을 실시했습니다. 이미지 리스트는 glob로 받았습니다. __getitem__에서는 1개의 이미지와 라벨을 리턴해줬습니다. 이미지를 로드할 때는 PIL 라이브러리와 cv2를 사용할 수 있는데, cv2를 사용했을 때, array로 이미지를 읽기 때문에 ndarray로 변환이 필요한 것..
Sooho_Kim
'학습포스팅/네이버 부스트캠프' 카테고리의 글 목록 (2 Page)