해당 포스팅은 네이버 부스트캠프 P-stage를 위해 개인 학습 내용을 정리했습니다.
1. 목표
- 데이터 augmentation 방법
- wandb 적용하기
2. 진행 내용
1) 데이터 augmentation 방법
자연어 처리에서의 augmentation 방법에는 여러 가지가 존재하지만, 이번 주어진 데이터는 서로 관계가 있는 라벨들이 존재했습니다. 첫 번째 케이스는 entity1 : entity2 관계가 바뀌어도 라벨이 바뀌지 않는 경우가 존재했습니다. 약 700개 정도에 대해 추가해줬습니다. 이를 동일한 조건에서 테스트한 결과 살짝 성능 향상은 있었습니다. 두 번째 케이스는 entitiy1 : entity2 관계를 바꾸면 다른 라벨로 바뀌는 경우입니다. 이 경우에는 서로 바꿔서 데이터를 늘려줄 수 있다고 생각해서 이러한 경우에 해당되는 8개의 라벨을 추가하는 작업을 실시했습니다. 첫번째 케이스가 포함된 후에 적용한 것인데, 생각보다 성능향상은 없었습니다. 오히려 하락했습니다. 아마 같은 에폭으로 돌렸지만 학습의 개수가 차이가 나서 그럴 수 있다고 생각해서 checkpoint가 낮은 지점의 모델을 내일 확인 해볼 예정입니다.
2) Wandb 적용하기
생각보다 적용하는 것이 쉬웠습니다. 혹시 진행하고 싶으시다면, 여기 튜토리얼을 활용하시면 wandb를 활용하실 수 있습니다.
3. 회고
데이터를 증강하기 위해서 생각한 방법이 효과가 없어서 아쉽습니다. 다양하게 또 증강하는 방법에 대해서 생각해보고자 합니다. 내일은 오늘 못 제출한 submission을 제출하고 성능을 평가해보고, 외부 데이터를 만들어보는 작업을 해보겠습니다.