해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다.
1. 목표
- dataset : train, valid를 폴더별로 나누기, 학습 클래스가 부족한 것에 대한 처리
- Model : EfficientNet 사용해보기
- 데이터셋 전체 표시해서 확인하기
2. 진행 내용
1) Dataset
- train, valid를 물리적으로 분리해보기로 했습니다. 이유는 폴더 내에 같은 사람의 사진이 7장 찍혀있는데, 랜덤으로 이미지를 가져갈 경우, valid 평가에서 문제가 발생할 수 있을 것이라고 생각했습니다. 학습 샘플이 고정되는 문제가 있을 것 같지만 이 부분은 추후 처리해주는 방법을 생각해봐야겠습니다. train, validation 나눠서 적용한 것이 이전에 돌렸던 것보다 많은 상승효과가 존재했습니다.
- 학습 클래스 부족한 것은 80개인 것도 있어서, 어떻게 업샘플링을 할지 고민중입니다.
2) Model
- Inception v_3를 사용해서 acc를 70%를 넘겼습니다. 아마 데이터셋의 영향이 있다고 생각됩니다.
- EfficientB0를 이용하기 위해서 efficientnet_pytorch 라이브러리를 사용했습니다. 결과는 내일 나올 것 같습니다.
3) 데이터셋 전체 표시하기
- 전체 이미지 폴더를 불러온 다음, 각 폴더 내부의 이미지를 하나씩 불러오면서 subplot(1, 7)에 하나씩 넣어주는 방식으로 진행했습니다. label, 파일명은 sub_title로 넣어줘서 확인할 수 있도록 했습니다.
3. 회고
데이터셋에 일단 집중해서 나이별로 잘 구분이 되는 지 육안으로 확인해보려고 합니다. 내일 데이터셋 표시한 것을 보면서 추측하겠습니다.