
AIX에 필요한 학습 데이터
AI 산업의 육성에 가장 중요한 3대 요소는 인프라, 데이터, 인재이다. 그중 데이터는 딥러닝, 머신러닝, 강화학습 등 최근 널리 사용되는 대형 AI 모델을 학습시키는 데 꼭 필요하다. 국내에서는 인공지능 학습을 위하여 의료데이터, 공공데이터 등을 개방하는 정책을 추진하고 있으나, 국제적인 경쟁력을 갖춘 AI 모델을 학습하기에는 여전히 빅데이터가 부족하다는 인식이 자리하고 있다.
또한 모델만으로는 글로벌 상용 서비스를 위한 성능을 내기가 어렵다. 서비스를 위한 대량의 학습 데이터를 확보하지 못한 기관의 경우, 범용적으로 공개된 데이터와 모델을 통해 특정 작업에서의 학습과 미세조정(fine tuning) 학습을 위한 벤치마크에서 경쟁한다. 그러나 글로벌 수준에서 상용 서비스를 제공하기에는 부족한 실정이다.
AX에 필요한 도메인별 학습 데이터 공개
인공지능의 영향이 클 것으로 예상되는 대표적인 응용 분야로는 금융, 의료, 제조, 공공(군, 법률 등) 등이 있다.
금융 분야에서는 대형 언어 모델의 질의응답 기능을 금융 거래에 활용하는 것을 중심으로 AI 적용이 확산되고 있다. 이에 따라 대형 언어 모델을 금융 데이터로 고도화하는 데이터가 각 응용 분야별로 취합되고 있다.
의료 분야에서는 국민건강보험공단과 건강보험심사평가원을 중심으로 대형 모델의 학습이 가능한 의료 빅데이터가 구축되어 있다. 이를 통해 국내 기업들의 AI 서비스가 개발되어 의료 영상이나 중환자실 모니터링 등에 활용되고 있으며, 국내 의료 시장뿐만 아니라 해외 시장으로도 진출하고 있어 긍정적이다.
제조 분야에서는 국내 제조 기업들이 반도체, 자동차, 철강, 석유화학, 이차전지 등의 분야에서 세계적인 무인화 자동화 설비를 구축하였다. 그리고 이를 연결 및 모니터링하여 품질과 생산을 고도화하고 있다. 정부의 스마트 공장 보급 사업을 통해서는 대기업뿐만 아니라 중소・중견 기업에서도 이러한 장치의 연결 및 데이터 수집을 지속적으로 고도화할 수 있었다. 따라서 생산 효율을 높이는 작업이 국내 공장뿐 아니라 해외 생산 기지에서도 확산되고 있다.
국내에서 AIX 진행이 어려운 점
국내 기업들은 미국의 빅테크 및 중국의 DeepSeek에 비해, 학습을 위한 데이터를 적극적이고 공격적으로 확보하기가 어렵다. 개인정보가 담긴 데이터에 대한 국내 소비자들의 주체성과 민감도가 매우 강하기 때문이다. 따라서 정부는 이를 해결할 필요가 있다.
더불어, 서비스를 제공하는 기업도 서비스의 고도화를 위해서 인터넷뿐만 아니라 외부의 주요한 정보를 학습 데이터로 만들어야 한다. 정부가 정책을 통해 이러한 기업에 자금과 인력을 직・간접적으로 지원한다면, 기업이 AI 학습에 필요한 데이터를 확보하는 데 도움을 줄 수 있을 것이다.
맺음말
AIX는 어느 하나의 기술로 완성되는 것이 아니라, 각 산업에 최적화된 데이터와 인재, 그리고 이를 뒷받침할 정책과 인프라가 유기적으로 결합된 통합적 접근을 통해서만 완성될 수 있다. 한국이 이러한 AI 분야에서 주도권을 확보하기 위해서는 기술‧산업‧제도 전반에 걸쳐 생태계를 구축하고, 국가 산업 구조 전반에 AI를 내재화해야 한다.
서울대학교에서 컴퓨터공학과를 졸업한 후, 미국 일리노이대학교 어바나-샴페인(UIUC)에서 전산학 박사 학위를 취득하였다. 울산과학기술원(UNIST) 교수를 거쳐 현재는 KAIST 김재철AI대학원 교수로 재직중이다. 주요 연구 분야는 설명 가능 인공지능(XAI), 대용량 시계열 데이터의 학습 및 추론, 딥러닝 응용 등이다. 2019년에는 공정 효율 최적화 인공지능 예측 솔루션을 제공하는 ㈜인이지를 창업하여, 대표이사로서 학문과 산업 현장을 연결하는 혁신을 이어가고 있다.