한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
의미론(Semantics)는 언어학 및 논리학의 기본 분야 중 하나로 말이나 글의 의미, 뜻을 연구하는 분야입니다. 그래서 이 책에서는 의미론적으로 데이터 모형화하는 것에 대한 이야기를 다루고 있습니다. 최근에는 수많은 데이터가 쏟아져 나오고 있는데, 그 속에서 데이터 전문가들은 원하는 것들을 항상 찾을 수 있을까? 꼭 그렇지는 않습니다. 데이터가 많이 있지만 실제로는 필요한 알맹이가 없는 경우도 있습니다. 이러한 문제는 주로 시맨틱 격차로 인해 발생하고 있습니다. 여기서 말하는 시맨틱 격차는 데이터 공급자와 데이터 수요자의 격차를 의미합니다. 하지만, 이 책은 시맨틱 데이터 모형을 구축하는 기초 단계, 특정 언어와 프레임워크를 깊게 다루지는 않습니다. 이 책은 주로 시맨틱 데이터 모형화하는 과정 속에서 주의를 기울여야 하는 부분에 대해 중점적으로 다룹니다. 만약 시맨틱 데이터 모형을 구축하는 기초 단계에 대한 내용이 필요하시다면 다른 책을 통해 채우시는 것을 추천드립니다.
1. 대상 독자 및 목차 소개
우선, 이 책에서는 데이터 실무자들에게 적합한 책이라고 설명하고 있습니다. 저의 경우에는 다른 팀에서 만든 데이터 모형을 가지고 ML을 돌리거나 특정 가설을 세우고 통계 검정을 진행할 때가 많이 있습니다. 그럴 때마다 해당 feature가 의미하는 바가 어떤 것인지 애매할 때가 종종 있습니다. 그럴 때마다 해당 팀의 사람들과 이야기를 통해 의미를 확실히 하는 과정이 필요하게 됩니다. 특히, 데이터의 품질과 유용성과 가치를 높이기 위해 '시맨틱에 관해 대화'하는 방법을 배우고 싶어하는 데이터 전문가들을 위한 책입니다.
책에서는 앞서 말했듯이 시맨틱 데이터 모형을 구축하는 기초 단계나 프레임워크를 깊게 다루지 않습니다.
먼저, 1부에서는 시맨틱 데이터 모형화에 대한 기본 개념, 책을 읽을 때 필요한 용어 등을 정리합니다.
- 시맨틱 격차에 유념하기
- 시맨틱 모형화 요소
- 시맨틱 현상과 언어적 현상
- 시맨틱 모형 품질
의미 정확성, 완비성, 무모순성, 간결성, 시의성 등 시맨틱 모형의 품질을 판단할 때 지표 - 시맨틱 모형 개발
2부에서는 시맨틱 데이터 모형을 개발해서 적용할 때 흔히 빠지기 쉬운 함정을 살펴보고 이를 효과적으로 피하는 방법과 기술을 소개합니다. 블랙독이란 드라마에서 "영희는 바나나와 수박을 2개 구매했다."라는 문장이 등장했었는데, 여기서 바나나를 사람 이름으로 보고 영희와 바나나가 수박을 2개 구매를 했다고 볼 수도 있고 영희가 과일 바나나 2개, 수박 2개로 볼 수도 있다는 점에서 애매모호한 문장이라고 볼 수 있습니다. 책에서는 데이터 모형화 과정에서 이러한 문제들을 어떻게 피할 수 있는 지 사례를 바탕으로 설명해줍니다.
마지막으로 3부에서는 시맨틱 모형화와 관련된 딜레마를 소개하고 모든 경우에 대한 장단점과 효과적으로 선정하는 방법을 소개합니다. 쉽게 생각하면 데이터 모형화를 진행할 때, 어디까지 세분화할 것인가부터 어떻게 연결해야 하는가 등 다양한 부분에 대해 결정했을 때에 발생할 수 있는 장단점 등을 설명해줍니다.
2. 이 책의 특징
아무래도 내용을 이해하기에 난해한 용어들이 생각보다 많습니다. 마치 국어 문법 시간을 보는 듯한 부분이 종종 보이는데, 그럴 때마다 예시를 들어서 해당 내용을 최대한 이해할 수 있도록 돕고 있습니다.
위의 사진처럼 클래스와 인스턴스를 설명할 때 이해를 돕기 위한 그림을 포함하여 설명하고 있습니다. 또한, 2부에서는 다양한 사례를 들어 어떻게 문제들이 발생하고 있고, 어떤 함정이 존재하는 지 등을 설명하고 있습니다. 저의 경우에는 신입이기에 실제 어떤식으로 발생하는지 예상하지 못하는데, 발생할 수 있는 문제들을 가늠해볼 수 있다는 점에서 좋았습니다. 이러한 부분들은 독자로 하여금 내용을 좀 더 쉽게 이해할 수 있을 것이라 생각합니다.
3. 총평
다양한 사례들을 기반으로 시맨틱 데이터 모형화에서 발생할 수 있는 문제들을 해결하고자 하는 사람에게 도움이 될 책입니다. 제가 읽기에는 쉽게 읽히는 책은 아니였습니다. 생각보다 난해한 용어들이 많이 있다보니, 아마 이쪽 분야의 용어 자체가 어려운 편인 것 같습니다. 그래도 읽으시면서 접해보기 어려웠을 만한 내용들은 부록 B에서 따로 모아서 설명하고 있으니, 그 부분을 참고하면서 보신다면 그나마 읽는데 도움이 되실 것 같습니다. 그리고 이 책은 시맨틱 데이터 모형화에 대해 어느정도 기본지식이 있고, 구성 해보신 분에게 더 좋은 책일 것 같습니다.