얼마 전, PFCT의 AI R&D Team 소속 엔지니어들이 작성한 논문이 국제 최우수 학회 ‘KDD 2024’에 등재되었다는 소식을 전해드렸죠. 논문의 저자들은 지난 8월 말, 스페인 바르셀로나에서 열린 KDD 2024 컨퍼런스에 참석해 관련 분야의 엔지니어들과 이야기를 나누고, 우리의 기술력을 자랑하는 시간을 가졌는데요.
이번 콘텐츠에는 논문의 1저자이자 컨퍼런스 현장에서 직접 발표에 나선 AI R&D Team의 동준님께서 바르셀로나에서 배우고 느낀 점을 정리해 오셨습니다. 세계 무대에서 바라본 PFCT의 기술력과 미래, 지금 바로 확인하시죠!

KDD: 학계와 업계 모두 주목하는 학회
KDD(Knowledge Discovery and Data Mining)는 데이터 마이닝 및 인공지능 분야에서 최우수로 꼽히는 학회예요. 학계와 업계 모두에서 많이 참여하는 것으로 특히 유명하죠. 이번 컨퍼런스에는 약 2,000명 정도 참석했다고 합니다.
KDD에는 두 가지 메인 트랙이 존재하는데요. 여러 분야에 적용되는 알고리즘을 제안하는 Research 트랙과 실제 산업에서의 적용을 강조하는 Applied Data Science 트랙입니다. 그런데, 직접 확인해 보니 Research 트랙의 연구도 이론적인 것보다 실사용을 염두에 두고 새로운 방법론을 제시한 경우가 대부분이었어요. 학계와 업계 가리지 않고 많은 엔지니어들이 주목하는 이유가 여기에 있었죠.
저희가 컨퍼런스에 참석하며 가장 크게 얻어오고 싶었던 건 산업 전반에서 어떤 연구가 이루어지고 있는지 동향을 파악하는 것과 특히 금융 업권에서 어떤 연구가 이루어지고 있는지 파악하는 것이었는데요. 아무래도 개인신용대출 시장 자체에 대한 연구가 활발한 건 아니어서 다른 비슷한 산업에서 이뤄진 연구를 우리 쪽에 어떻게 적용해볼 수 있을지 고민해볼 예정이었습니다. 개인적으론 신용카드 거래에서의 이상탐지 연구, 광고 시장 연구, 생물정보학 쪽 연구에 특히 관심이 많았어요.
발표: 금융 연구의 희귀성을 체감하다
월요일부터 목요일까지 진행된 컨퍼런스, 저희는 마지막날인 목요일에 발표를 하게 되었습니다. 제가 논문 요약문을 붙여 놓고 부스를 운영하는 식으로 하는 포스터 발표를, 승정님이 PPT 장표를 토대로 발표를 진행하는 본 발표를 담당하셨는데요.
사실 저는 포스터 발표를 준비하면서 꽤 긴장했는데, 막상 발표를 진행하며 사람들이 묻는 질문에 답하다 보니 점점 긴장이 풀리며 편안해지는 걸 느꼈습니다. 대체로 한국의 개인대출시장에 대한 질문을 많이 주셔서, 이에 답하며 우리 알고리즘에 시장의 특성을 어떻게 반영했는지 주로 설명드렸어요.
아, 특히 기억에 남는 질문이 있는데요. 한 교수님이 오셔서 본인도 이런 연구를 하고 싶은데, 데이터는 어떻게 구했는지 물어보셔서 저희는 금융 회사라 가능하다 답하니 굉장히 부러워하셨던 게 기억에 남습니다. AI는 데이터가 무엇보다 중요한데, 확실히 우리가 가지고 있는 금융 라이센스로 얻은 데이터의 값어치를 다시금 느낄 수 있는 시간이었어요.

승정: 이쪽 분야와 관련된 논문이 많지 않은 것에 비해 발표 자리에서는 생각보다 관심도가 높았던 것 같아요. 많은 분들께서 집중해서 들어주셨고, 금융 관련 관계자 분들이 질문도 많이 해주셨습니다. 저는 특히 인상 깊었던 질문은 따로 없었고, 주제 선정 및 발표가 괜찮았는지 생각보다 질문이 많아 뿌듯했습니다.

LLM: 그리고 또 LLM
이번 컨퍼런스에서 가장 핫했던 주제는 단연 LLM(Large Language Model)이었습니다. 제 생각에 어느 머신러닝 학회를 가도 당분간 가장 핫한 주제는 계속 LLM일 듯 한데요. 현재 저희 팀은 LLM 기반 연구를 하고 있지 않고, 개인적으로도 큰 관심이 없어서 LLM만을 다루는 세션엔 참여하지 않았음에도 관련한 얘기를 어디서든 들을 수 있었습니다. 예를 들어 금융 세션에 들어가면 LLM으로 서류 요약하는 법을 말하고, 생물학 세션에 들어가도 LLM으로 의학 기록 요약하는 법을 말하는 등 정말 LLM이 없으면 세션이 진행되지 않겠다 싶을 정도로 많은 연구들이 LLM을 활용하고 있다는 걸 알 수 있었어요.
PFCT도 GAIA(Generative AI Application) Team에서 여러 가지 과업들에 LLM을 활용하고 있잖아요. 저도 트렌드를 계속 따라가기 위해 LLM에 대한 이해는 충분히 하고 있어야 하겠다는 생각이 들었습니다.

광고 시장: Causal ML에 대한 고민
광고 시장에 머신러닝을 적용한 연구들도 인기가 무척 많았습니다. 특히 광고의 실질적 효과 측정을 위해 인과 추론을 ML과 합친 Causal ML을 사용하는 발표가 많았는데요. 이는 광고의 효과가 가장 높은 고객들, 즉 광고를 안 하면 우리를 선택하지 않겠지만, 광고를 하면 우리를 선택할 고객들을 찾아내는 방법론입니다. 상품을 선택할 확률을 예측하는 모델을 만들어서 선택할 확률이 높은 사람들에게는 광고를 하지 않는 것이죠.
What-if를 예측해야 하는 분야이기 때문에 매우 어렵지만, 산업과 밀접한 연관이 있기 때문에 많은 연구가 되고 있고, 인기 또한 높았습니다. 이는 저희 팀에서 최근에 관심을 갖고 있는 주제여서 매우 흥미로웠어요. 저희도 대출 고객 중, 금리에 특히 민감하게 반응하는 고객군을 분류해내려는 시도를 하는데, 이에 Causal ML을 응용하기 위한 연구를 하고 있거든요.
이진 분류: 연구 방향성을 재확인하다
저희가 주력 연구하는 신용평가시스템(Credit Scoring System)은 기본적으로 연체를 예측하는 문제로, 타겟이 연체를 했냐 안 했냐 이진 분류하는 것입니다. 이 때 데이터의 특성 중 하나는 Imbalanced로, 타겟이 1인 모수가 타겟이 0인 모수보다 훨씬 작은 것인데요. 이를 해결하기 위한 방법론으로 오리지널 데이터에 변형을 살짝 가해 추가 데이터를 만드는 Data Augmentation이 있어요.
이번에 포스터 발표를 들으며 Classification을 위한 Data Augmentation을 연구하는 분과 대화를 나눌 기회가 있었는데요. Data Augmentation을 테스트하기 위해 여러 Classifier에 적용하고 결과를 비교했다고 하는데, 저희가 쓰는 GBDT algorithm이 빠져있기에 물어보니 자기 논문을 리뷰한 사람이냐고 묻더라고요. 리뷰어 중 한 명이 똑같은 질문을 했었다면서요. 저희 연구와 비슷해 보여 질문한 것이었는데, 리뷰어도 동일한 생각을 가지고 있었다 하니 뭔가 기뻤습니다.
또, Loss를 변형시켜서 Accuracy가 아닌 다른 F1-score, 또는 Recall을 극대화하는 Loss를 만드는 발표도 들었는데요. 저희도 Accuracy 보다는 KS, Recall같은 지표를 중점적으로 보고 이들을 직접적으로 극대화시키는 연구를 하다 보니 매우 흥미로운 시간이었습니다. 이렇게 여러 발표를 듣다 보니 확실히 저희가 시도해봤던 방향성이 대부분이라, PFCT가 적어도 이진 분류 쪽에서는 최신 트렌드를 잘 쫓아가고 있구나, 우리가 시도하는 것들을 다른 사람들도 시도하고 있구나 하는 생각이 들어 기뻤어요.
Real-world Machine Learning: 현실에 발 붙이기
혹시 나도 언젠가 매니저가 될 수 있을까 하는 야망에 불타올라서 매니저를 위한 워크숍에 참가해 Keynote Speaker의 발표도 들었습니다. (라기 보단 유명한 사람이 온다고 해서 들으러 간 거예요. 그런 야망은 없습니다.)
아무튼 그 때 들은 건 구글의 Senior Director of Engineering인 Priya Ponnapalli의 발표였는데요. Real-world Machine Learning이라는 제목이었습니다. 여기서 들은 이야기들이 굉장히 깊게 기억에 남았어요. 이론적인 연구로서의 머신러닝이 아닌, 실제 산업에서의 머신러닝에 관한 이야기였거든요.
연구로서의 머신러닝에서 가장 중요한 건 아무래도 방법론의 참신성, 벤치마크에서의 성능, 이론적인 배경 등이죠. 그러나 실제 머신러닝을 적용하는 데 있어 가장 중요한 건 ML팀과 비즈니스팀의 끊임없는 소통입니다. ‘모델을 개발하기 전에 비즈니스 고객들과 계속 소통해서 양쪽의 Align을 맞춰야 한다’, ‘Metric이라든지, 사업적인 KPI라든지 반드시 고려해야 한다’, ‘실제 Data Scientist가 보는 Metric이 현실의 고객 니즈와 일치하는지 계속 봐야 한다’ 등의 조언이 기억에 남네요.
그리고 여러가지 현실적인 문제도 같이 이야기 해주셨는데요. ‘Model Deploy를 위해 일부로 성능이 조금 떨어져도 더 간단한 모델을 고려할 수도 있다’, ‘꼭 최신의 Fancy한 딥러닝 기술이 잘 되는 것은 아니다, 갖고 있는 데이터나 상황에 따라 간단한, 심지어는 Rule-based가 잘 될 수도 있다, 아니면 아예 ML로 안 풀리는 문제일 수도 있다’, ‘항상 비즈니스를 생각해야 한다’ 등이 떠오릅니다.
어느덧 학교에서 나온 지 3년 차임에도 비즈니스에 관해 생각하기보단 단순 모델 연구에 몰두할 때가 있는 제가 반성할 부분이었습니다. 새로운 방법론에 관한, 또는 방법론의 응용에 관한 이야기가 아님에도 불구하고 매우 많은 걸 느낄 수 있는 시간이었습니다. 아직 높은 사람이 되기엔 멀었구나… 역시 병규님(팀 리더)이 최고 아닐까요? (농담입니다)

발표자/참석자로서의 TIP: 배경 지식의 중요성
우연히 ML Model Prediction의 불확실성에 관한 세션 중 날씨 예측 모델링에 관한 발표를 듣기도 했습니다. 아무래도 같은 ML이라 하더라도 산업마다 연구 주제가 나눠져 있다 보니 자신의 산업이 아니면 큰 관심이 없고, 잘 모를 때가 많은데요. 날씨 예측 시장에 대해선 대학원 때 잠깐 들어본 적이 있어서 재밌게 들을 수 있을 줄 알았는데, 아무래도 배경 설명이 없이 모델링에 관한 이야기가 나오니 ‘???’ 상태가 되어 버렸습니다. 안타깝게도 이쪽 모델링에 관한 지식은 거의 없으니까요.
이번 컨퍼런스에는 아무래도 발표자이자 참석자로 임하다 보니 양쪽 모두의 입장에서 생각하는 시간을 가질 수 있었는데요. 팁을 좀 나누자면,
발표자 분들께 드리고 싶은 이야기는 방법론에 대한 너무나도 자세한 소개보다는 모티베이션과 시장에 대한 설명, 그게 어떤 방법론으로 이어졌는지에 대한 이야기가 관중의 흥미를 훨씬 더 끌 수 있다는 것입니다. 저희도 개인신용대출시장에 대해 잘 모르는 사람들이 많다 보니 그런 식으로 발표를 이끌어갔는데요. 덕분에 많은 관심과 질문을 받을 수 있었다고 생각합니다.
참석자로서는 세션에 들어가기 전, 어느 정도 기본 지식을 쌓고, 어떤 내용이 주가 될지 잘 파악한 다음에 들어가는 게 중요해요. 저도 개인적으로 흥미를 가지고 있었고, 어느 정도 알던 분야에서는 더욱 더 즐겁게 들었던 기억이 납니다. 귀한 시간이니 알차게 즐기기 위해 미리 약간의 조사라도 하고 가시길 추천드릴게요.
마치며: 자신감, 아이디어, 동기부여를 얻다
컨퍼런스에 참석한 4일, 제겐 굉장히 의미 있는 시간이었어요. 저희가 하는 고민을 똑같이 하고 있는 분들은 안타깝게도 찾지 못했지만, 실험해 볼만한 아이디어를 비슷한 산업에서 얻어올 수 있었다는 것만으로도 충분하다고 생각합니다. 다른 분들의 연구를 보며 우리가 최신 트렌드와 발맞추어 가고 있구나, 또 우리 기술력이 뒤지지 않는구나 하는 느낌을 많이 받았는데요. 세계 최고의 학회에서 그런 생각을 할 수 있었다는 점이 감회가 남다릅니다.
비슷한 고민을 갖고 비슷한 접근법으로 산업의 여러 문제를 풀어내는 연구들을 보면서, 어떤 분야이든 기술 발전을 위해 고군분투하는 노력에 크게 공감할 수 있었어요. 특히 기존의 고질적인 문제를 재해석하고 새로운 해결법으로 어떻게 설득할 것인가에 대한 것이요. 이번 기회에 함께 고민할 수 있었던 것이 향후 연구에 좋은 참고가 되리라 생각합니다. 새로 시도해 볼 아이디어도 많이 얻었고요.
굉장히 큰 테크 회사를 포함해 산업과 학계의 collaboration이 많다는 것도 시사점이었습니다. 회사의 데이터를 이용해 학계가 연구한 내용을 직접 적용하는 방식이었는데요. 저희도 학계와 직접적으로 같이 일을 하지는 않아도, 최신 동향은 항상 주시하고 우리에게 적용할 수 있는 것은 적용하는 것도 중요하다는 생각이 들었습니다. 또, 지금 당장 필요해 보이지는 않아도 언제 필요할 지 모르는 GNN, LLM 등의 기술들도 계속 알고 있는 것이 필요할 것 같은데요. 그런 면에서 다양한 주제들의 연구와 토크를 들을 수 있는 정말 좋은 기회였다고 생각합니다.
저의 컨퍼런스 참석기는 여기서 마치며, 눈부시게 아름다웠던 스페인의 풍경으로 마무리하려 합니다. 끝까지 읽으신 분들께 조금이나마 도움이 되는 글이었길 바랍니다. 감사합니다.

written by Dongjun
edited by Hoonjung
인공지능(AI)으로 기술 혁신을 이끌어가는