이 글은 개인적인 생각과 경험으로 작성된 글이기에 다른 제조업 및 스타트업 등을 대표하지 않을 수 있음을 알려드립니다.
글을 시작하며
2020년부터 데이터 분석이라는 분야에 흥미가 생기기 시작하며, 다양한 프로그램, 교육 등을 들었고 2021년 네이버에서 진행하던 부스트캠프를 진행하게 되면서 AI와 코딩으로 진로를 정하게 되었습니다. 그러다 그 해 2021년 말, 데이터 분석가라는 직무(사실, 당시에는 데이터분석가의 직무라는 것은 없었고, 데이터분석, AI, 머신러닝을 다뤄본 사람 정도)로 회사에서 일을 시작하게 되었습니다. 처음에는 "나 같은 주니어가 제조업에서 할 수 있는 것들이 있을까?"라는 생각, "그래도 AI, 머신러닝 배웠는데, IT기업에 가는 게 좋지 않을까?"라는 생각과 "그래도 주어진 기회에서 열심히 해보고 경험해 보자"라는 생각에 회사에 입사하기로 했습니다. 그리고 벌써 3년 차가 되어, 작은 의사결정에 조금씩 도움을 주는 역할로 많이 성장해 온 것 같습니다. 이 글을 작성하면서 제 스스로의 회사 생활을 돌아보고, 저와 같은 상황에 계신 분들에게 조금이나마 도움이 되었으면 하는 마음에서 작성해 봅니다. 추가로, 이 모든 이야기는 저의 개인적인 경험과 생각이기에 모든 제조업이 이렇다고 보기는 어렵다는 것을 인지해주시면 감사하겠습니다.
경험하며 느낀 제조 스타트업의 특징
제조업의 특징
제조업은 데이터 베이스 구축 등 데이터 인프라가 미흡한 경우가 많습니다. 내가 입사할 때, 처음으로 데이터 직군으로 입사한다면, 직접 모든 것들을 구축해야 될지도 모릅니다. 그만큼 많이 배우고 공부할 수 있는 기회가 됩니다.
또한, 데이터 기반 의사결정보다는 직감에 의한, 이론에 의한 의사결정이 더 강할 때가 많습니다. 아무래도, 제품에 대한 이해도는 엔지니어 분들과 설계한 분들이 높기에 데이터보다는 이론에 의한 의사결정이 주로 이뤄집니다. 하지만, 제품을 직접 마주하다 보면 이론이 맞을 때가 많지만, 반대의 결과가 나오는 경우도 종종 볼 수 있습니다. 이러한 부분에서 의견을 뒷받침하는 자료로 활용되거나 반박하는 자료로 데이터 분석이 힘을 발휘합니다.
파이썬보다는 엑셀이 편한 분들이 많은 곳입니다. 엑셀도 굉장히 좋은 툴이고 잘 사용하는 분들은 진짜 잘 사용합니다. 단숨에 뚝딱 데이터 뽑아내시는 분들도 계십니다.
스타트업의 특징
스타트업은 진짜 빠르게 도전하고 실패하고 다시 도전하는 방식으로 진행합니다. 내가 한 결과가 당장은 좋지 않더라도 계속 하다보면 더 좋은 방안들이 생기기도, 무용지물로 돌아가기도 하듯 엄청 빠르게 돌아갑니다.
각자가 해당 분야에 대해서 잘 알고 있어야 하며, 멀티 플레이어가 많습니다. 전문가이면서 다양한 것들을 감당할 수 있어야 합니다. 때로는 나와 맞지 않는 옷일지라도 도와줘야 할 때가 있고, R&R이 정확하게 나눠져있지 않다 보니, 혼자서 버겁고 어려울 때도 종종 있습니다.
1년 차 : 인큐베이터를 벗어나 현실을 마주하다
데이터분석보다는 데이터 수집과 품질을 높이는 작업하기
회사 막 들어갔을 때, 첫 번째로 주어진 업무는 각종 데이터들을 활용해서 영향을 미치는 것이 있는지 등을 살펴보는 것이었습니다. 이를 위해, 데이터들을 살펴보는 과정에서 데이터의 상태는 노이즈가 많고, 일관성이 없었습니다. 결국, 이 단계에서 데이터분석이 크게 유효하지 않다고 생각하게 되었습니다. "Garbage in, Garbage out"이라는 말이 있듯이, 데이터 품질의 향상이 우선적인 과제임을 알게 되었습니다. 처음부터 깔끔한 데이터들을 받아서 봤다면, 책상에 앉아서 어떤 것들이 연관성이 있는지 찾아내고 있었겠지만, 현실은 그렇지 않았기에 직접 현장에 가서 어떻게 데이터가 입력되는 지를 살펴보기 시작했습니다. 이런 과정 속에서 어떻게 데이터를 수집하는 것이 작업자에게 좋을지, 설비에서 로깅되는 것들은 어떤 식으로 가져올 수 있을지 등에 대해 고민하게 되었습니다. 그러면서 진행한 것이 데이터 수집하는 방법과 품질 향상을 위해 일하기 시작했습니다. 보통의 회사에서의 데이터분석가라면 SQL을 먼저 쓰면서 데이터추출하는 방법을 배웠을 텐데, 데이터 수집부터 시작하게 된 셈이었죠. 그래서 데이터 품질을 높이기 위해, 작업자들의 환경을 살펴보고 데이터 수집을 잘할 수 있도록 돕고, 실제 제품을 만들어보고 어떻게 구성되는 지를 살펴보며 ER-다이어그램을 만들었습니다. 추가적으로 모든 제품은 QC를 진행하게 되는데, 그 과정에서 나오는 데이터를 자동추출할 수 있는 프로그램을 만들어 데이터 수집에 사용되는 시간적인 Loss를 줄이는 데 기여했습니다.
회사에서의 인프라가 잘 갖춰져있지 않은 상태에서 당장 기여할 수 있는 부분, 현장에서의 어려움을 인지하고 이를 데이터로 해결하려고 노력한 것들이 유효하게 작용했던 주니어 생활이었던 것 같습니다. 물론, 인프라가 없고, 데이터 수집이 원활하지 않은 것도 아쉬울 때가 있었지만, 다양하게 도전해 보고 빠르게 실패를 경험하고 또 도전하는 방식을 배워가는 과정이었습니다.
2년 차 : 데이터 분석 시작하다
제품의 품질과 개발에 참여하기
1년 차에 열심히 닦아놓은 데이터들이 잘 수집되었고, 어느새 꽤 많은 데이터들이 쌓이기 시작했습니다. 제조업의 특징 중 하나는 공정과 공정이 연관성이 있어서 이것을 연결시키는 작업이 굉장히 중요합니다. 이전에 작성했던 다이어그램을 바탕으로 데이터들을 연결시키는 작업을 미리 해뒀기에 모든 공정 데이터들을 연결시켜서 볼 수 있게 되었습니다. 데이터들이 쌓이기 시작하니, 데이터 분석을 시작할 수 있는 상황이 되었습니다. 이때부터 저의 주된 업무는 제품 개발에 대한 데이터분석, 양산되는 제품에 대한 품질을 살펴보게 되었습니다.
제품 개발의 경우, 일부 제품에 대해서 개선된 재료나 개선된 공정을 변경한 뒤, 양산되는 제품과 동일한 지, 다른 지를 살펴보게 됩니다. 이 과정에서 수량이 굉장히 작기 때문에 통계 기반한 가설 검정을 시작하게 됩니다. 실제로 현실 데이터는 아무리 많은 데이터가 있어도, 정규성을 갖지 않는 데이터도 종종 있습니다(실제로 저희 데이터들이 특히나 이런 것들이 심했습니다). 그렇게 각종 실험에 대해서 모수검정과 비모수검정방법 등을 활용하여 재료변경하는 것이 좋은 지, 개선된 공정으로 변경해도 되는지 등을 확인해서 의사결정에 도움을 줬습니다.
양산되는 제품 품질의 경우, QC과정에서 불량 판정이 나면, 실제 제품이 불량인지, 특정 장비의 문제인지 살펴보는 작업이 최우선이었습니다. 이 작업을 통해 장비의 이상(장비 이상의 경우, 특정 신호가 문제 있음을 알리는 경우가 있었고, 이를 QC 프로그램에 포함시켜서 미리 알 수 있도록 조치)이 없다고 판단되면, 제품의 이상현상을 먼저 파악하고 이로 인한 데이터 패턴 등을 살펴봤습니다. 제가 다루던 제품에 대한 도메인 지식이 없다 보니, QC 과정에서의 이상현상에 대해 익숙해지는 데에는 꽤 많은 시간이 필요했고, 이 제품에 대한 전문가인 팀장님을 통해 많은 해답을 얻어 데이터를 축적했습니다. 실제로 불량제품을 분해해서 이상현상과 분해한 모습을 매칭시키는 방식을 통해, 영향을 줄 수 있음을 알려줬습니다. 제조업의 경우, 일부 제품이 문제가 생기는 것을 앞에서 찾아내면 찾아낼수록 문제가 눈덩이처럼 커지지 않습니다. 그래서 모든 문제를 최대한 앞공정에서 발견할 수 있도록 고민하면서 다양한 의견을 제시하기도 했습니다.
데이터 기반 의사결정하기
잘 쌓아진 데이터들을 활용해서 제품 개발이나 공정 개발에 도움을 주는 사례들을 바탕으로 많은 의사결정이 데이터 기반으로 이뤄지게 되었습니다. 물론, 이 부분에서는 팀장님의 역할이 굉장히 컸습니다. 팀장님은 평소부터 숫자로 이야기해 주기를 바라셨으며, 정성적인 것보다는 정량적인 데이터들을 통한 의사결정을 원하셨기에 이러한 문화를 만들어 주셨습니다. 그러면서 데이터분석가의 입지가 좀 더 넓어지고, 회사 내에서 중요한 역할을 해내고 있다는 느낌을 받게 되었습니다. 아무리 분석해도 답이 안 나오는 문제들도 있었고, 분석해서 결과 냈던 것이 상반된 결과를 만든 것들도 있었지만, 그렇게 계속 도전하는 과정 속에서 제품을 바라보는 눈이 생기게 된 것 같습니다.
단순히 내 업무적인 능력을 높이기 위한 노력만 하기보다는 다양한 분들이 데이터에 잘 접근할 수 있도록 노력했습니다. 제품의 성장을 위해서는 정보의 격차가 있어서는 안 된다고 생각했기에 열심히 공유했고 필요한 데이터를 뽑아주기도, 시각화(시각화 요청이 오면, 나도 모르게 뿌듯)해서 전달해주기도 했습니다. 추가적으로 빠른 정보 전달을 위한 데이터 시각화(Power BI)의 도입하기도 했습니다. 물론, 혼자서 모든 일을 감당하기엔 너무나 많고 어렵기에 시각화는 걸음마 단계에서 멈춰진 상태입니다. 조만간 더 공부하며 다양한 Power BI를 도입할 계획이랍니다.
3년 차 : 다양한 데이터분석을 진행하다
가설검정에서 벗어나 머신러닝 등 다양한 데이터 분석하기
3년 차가 되면서 물론 2년 차에서 진행한 것처럼 다양한 가설검정과 데이터분석은 늘 하고 있지만, 단순한 가설검정을 넘어서서 회사 제품의 문제 등을 발견하는 역할을 주로 수행하고 있습니다. 아무래도 데이터는 품질과 연관되어 있다 보니, 제품의 품질에 대해 누구보다 잘 알게 되었습니다. 매일 나오는 QC 데이터를 분석하며, 어떤 이유로 A수치는 낮게 나오게 되었는지를 살펴보는 원인분석을 진행하고 있습니다.
3년 차에는 단순 가설검정보다는 조금 더 다양한 데이터 분석을 진행하기 시작했습니다. 가장 기억에 남는 것은 QC 정보를 바탕으로 제조과정에서 어떤 것이 가장 영향을 많이 주는 인자인지 찾아보는 작업이었습니다. 실제로 영향을 주는 것들이 높게 나오는 경우도 많았지만, 우리가 인지하고 있지 못한 인자들도 발견하게 되었습니다. 실제로 이 과정에서 머신러닝을 통해 지도학습(정상/불량, 유형별)을 진행하기도 했고, Correlation을 살펴보기도 했습니다. 그 과정에서 유의미한 인자들을 발견하기도 했고, 이를 기반으로 중간 공정에서 스크리닝을 할 수 있는 시스템을 도입하기도 했습니다.
비전을 활용한 정상/불량을 확인하는 장비 학습에 관여하기도 하며, 학습한 장비의 성능을 F1-score 등을 통해 모델이 더 학습을 하는 것이 좋을지 의사결정을 하기도 했습니다. 이렇게 조금씩 공부한 것들이 사용되기 시작했답니다.
데이터 파트 매니징
사실 스타트업이기에 주니어가 작은 파트를 맡아서 운영해 보는 것이 가능한 일이라고 생각합니다. 물론 저와 같이 본격적으로 데이터분석을 하는 분은 없지만, 검사원 분들을 관리하며, 데이터 수집 프로세스 등에 대해 고민하고, 어떻게 리더로 성장하는 지를 배우고 있는 단계입니다. 추후 다양한 분들이 들어와서 같이 일하게 된다면, 좀 더 넓은 시야에서 바라보게 되겠죠?
정리하기
제조 스타트업에서 분석가로 일하기 시작하신다면, "나는 분석만 할 거야"라는 마음보다는 데이터 관련 일을 많이 경험해 볼 수 있겠다는 마음으로 도전하시기 바랍니다. 너그러운 마음으로 주변 동료들에게 도움을 주면, 자연스레 데이터 기반 의사결정 문화가 만들어지기도 합니다. 생각보다 여러분의 능력을 필요하는 분들이 많이 있습니다.제조 스타트업에서 이미 일하고 계시다면, 조금이나마 업무에 접근하는 방식 등이 도움이 되고 위로가 되었으면 좋겠습니다. 긴 글 읽어주셔서 감사합니다.