02 - 과학 분야에서의 인공지능 활용 방안

SPECIAL ISSUE 02

▲ 최승훈 대표
인실리코

최근 인공지능이 전 산업계의 화두가 되어 다양한 분야에서 적용되고 있지만, 과학 데이터를 다루는 연구개발 분야에서의 활용은 아직 미미한 정도이다.

이 글에서는 당사의 기업 자문 사례를 바탕으로 연구, 개발, 생산, 품질관리 등의 분야에서 인공지능이 어떻게 활용되고 있는지를 소개하고, 해당 분야에 인공지능 기술을 적용하기 위해서는 사전에 무엇을 준비해야 하는지 기술하고자 한다.

들어가면서

최근 산업계에서는 빠르게 변화하는 기술 환경과 고객 요구에 대응하기 위해 디지털 전환(Digital Transformation)의 필요성이 대두되고 있다.

특히 인공지능은 2016년 구글 딥마인드의 알파고가 이세돌 9단에 압승을 거둔 뒤로 4차 산업혁명을 촉발하는 핵심 동력으로 주목받으며 모든 산업계에서 단연 화두가 되고 있다.

인공지능이란 ‘기계를 인간 행동의 지식에서와 같이 행동하게 만드는 것’으로 그 개념은 1956년 다트머스 컨퍼런스에서 최초로 정의되었다.

1950년대에 처음 탄생한 인공지능은 계산 능력과 논리 체계의 한계로 첫 번째 빙하기에 들어갔고, 1990년대에 신경망 알고리즘의 등장으로 두 번째 부활기를 맞이하였지만, 기계학습(Machine Learning)에 적용될 수 있는 데이터의 한계로 다시 빙하기에 접어들었다.

한편 2015년경 다시 시작된 인공지능의 세 번째 부활은 혁신적인 알고리즘의 등장, 컴퓨팅 파워의 급격한 향상, 사물인터넷에 기반을 둔 데이터의 급증에 도움을 받아 시작되어, 4차 산업 혁명과 스마트 제조 및 공장이라는 시대적 사명과 연계하여 엄청난 속도로 발전하고 있다.

이러한 인공지능의 과학이나 공학 분야의 활용에 대해 살펴보면, 해외에서는 기술선진국을 중심으로 소재 개발에 인공지능 기술을 적용하여 국가적 관점에서 소재 산업의 경쟁력 강화를 위한 노력이 진행중이다.

미국에서는 2011년 "Material Genome Initi-ative"가 출범한 이후, 신소재 개발 시간을 단축하기 위해 실험, 계산, 이론을 통합한 R&D 및 혁신 인프라 구축에 5억 달러 이상을 투자하고 있다.

일본에서는 "Materials research by Information Integration Initiative" 사업을 기반으로 2015년부터 5년간 21억 엔의 예산을 투입하여 전지, 자성, 열전 소재에 대한 데이터베이스 구축 및 인공지능을 활용한 데이터 기반 소재 연구 방법과 플랫폼을 개발하고 있다.

한편, 국내에서는 올해부터 한국화학연구원 화학소재솔루션센터에서 산학연 공동 연구를 통해 열 및 전기특성 플라스틱 복합수지의 조성 및 물성 정보를 문헌, 시뮬레이션, 실험에서 수집하여 소재 정보 빅데이터를 구축하고 인공지능 기술을 이용하여 “플라스틱 복합수지 조성/물성 예측 및 용도 추천 인공지능 플랫폼”을 구축하는 과제를 진행 중이다.

기술의 발전이 점점 가속화되는 가운데, 기계의 지능이 결국 인간의 지능을 넘어서는 시점이 올 텐데 이를 '기술적 특이점(Technical Singularity)'이라 한다.

이미 체스 게임(IBM 딥블루/1997), 퀴즈쇼(IBM 왓슨/2011), 바둑(구글 딥마인드 알파고/2016) 등의 분야에서는 기술적 특이점에 도달했지만, 과학 분야 전반에 걸친 특이점은 체계적으로 축적된 데이터의 한계로 아직 요원하다.

이 글에서는 과학 데이터의 특이성을 고려하여 인공지능을 우선 적용할 수 있는 세부 분야에 대하여 그 방법과 사례를 소개한다.

과학 분야에서 대표적으로 사용되는 인공지능 방법론

인공지능을 활용하여 과학 데이터를 예측하기 위해서는 가장 먼저 학습에 사용할 수 있는 데이터를 수집해야 한다.

그런 다음, 수집된 데이터의 특성을 파악하고, 모델링 가능한 형태로 전처리한다.

전처리가 완료되면 기계학습을 통해 예측 모델을 만들 수 있고, 만들어진 예측 모델을 이용하여 아직 진행하지 않은 실험에 대한 데이터를 예측할 수 있다.

실험 데이터가 지속적으로 축적되면 이를 활용하여 기존 모델의 성능을 개선할 수 있다.

그림 2는 인공지능을 활용한 과학 데이터의 예측 과정과 단계별 주요 업무를 도식화하였다.

당사의 기업 자문 경험을 기반으로 살펴보면, 인공지능의 과학 분야 활용을 시도하는 실무자들은 일반적으로 그 업무의 시작부터 예측이라는 단계에 집중하여 섣부른 기대 때문에 실패한 사례들을 다수 관찰하였으며, 과학 분야에서 인공지능을 실질적이며 효율성 있게 활용하기 위해서는 균질화된 데이터의 수집과 체계적인 특성화 및 데이터의 전처리에 훨씬 더 많은 시간과 노력을 집중해야 그 결실을 얻을 수 있다.

인공지능을 활용한 연구에 사용할 수 있는 기계학습 알고리즘은 표 1과 같이 크게 4가지로 구분할 수 있다.

지도 학습은 입력 데이터에 대해 우리가 분석하고자 하는 관점에서 명시적인 정답(Label)이 주어진 경우 사용하는 방법이다.

이러한 정답은 사람에 의해서 정의되기 때문에 입력된 데이터를 이용하여 학습하는 컴퓨터 입장에서는 사람으로부터 지도(Supervised)를 받는 것이 된다.

지도 학습에는 학습을 통해 입력 데이터가 어떤 종류인지 구별해내는 분류(Classification) 알고리즘과 연속적인 숫자 값을 예측하는 예측(Prediction) 알고리즘이 있다.

분류 알고리즘에는 kNN(k nearest neighbor), 의사 결정 트리(Decision Tree), 서포트 벡터 머신(Support Vector Machine) 등이 있고, 예측 알고리즘에는 대표적으로 회귀(Regression)가 있다.

인공 신경망(Artificial Neural Network)을 기반으로 구축한 기계학습 알고리즘인 합성곱 신경망(Convolutional Neural Network), 순환 신경망(Recurrent Neural Network)과 같은 딥러닝 역시 지도 학습의 대표적인 예이다.

지도학습은 명시적인 정답이 정의된 상태에서 학습하므로 보다 정확한 학습이 가능하다.

반면, 입력 데이터에 대한 판단 결과가 명확히 정의되어 있지 않다면 컴퓨터가 사람으로부터 지도받은 것이 없기 때문에 비지도 학습이라고 한다.

입력 데이터에 답이 정해져 있지 않기 때문에 확보된 데이터의 패턴, 특성을 분석해서 서로 유사한 특성을 가지는 데이터끼리 군집화(Clustering)하는 것이 학습 목표이다.

준지도 학습은 지도 학습과 비지도 학습의 중간 단계로 보유한 데이터의 일부에 대해서만 판단 결과가 주어진 경우에 사용한다.

마지막으로 알파고의 학습 모델로 잘 알려진 강화 학습은 어떤 환경(Environment) 안에서 에이전트(Agent)가 현재의 상태(State)를 관찰해서 어떤 행동(Action)을 취하는 것이 보상(Reward)을 최대화하는지 학습하는 방법이다.

행동을 취할 때마다 보상과 손실(Penalty)이 주어지는데, 보상을 최대화하는 방향으로 학습이 진행된다.

이러한 보상은 행동을 취한 즉시 주어지지 않을 수도 있기 때문에 다른 학습에 비해 난도가 높다.

이러한 강화 학습은 게임, 로보틱스, 자율주행 등에 주로 사용되는 학습 방법으로, DQN(Deep Q- Network)이 대표적이다.

우선 적용 가능한 과학 분야

인공지능 기술이 연구 수준을 넘어 상용화의 단계로 발전하면서 연구, 개발, 생산, 품질관리 등의 다양한 분야에 적용되어 생산성을 가속화하는 혁신적 부가가치를 창출하고 있다.

그러나 과학 분야는 타 산업 대비 정형화된 데이터의 축적에 어려움이 있어, 다양한 분야에 인공지능을 활용하려면 상당한 시간이 필요하다.

다음에서는 현실성을 고려하여 비교적 데이터의 취합이 용이하여 우선 적용이 가능한 세 개의 분야인 (1) 평가와 판정, (2) 제품의 최적 성분 및 조성 예측, (3) 사고 선행 예측 및 공정 조건 최적화에 대하여 서술한다.

평가와 판정

딥러닝 기술을 기반으로 인공지능 검사공정을 도입하는 과정에 대해 살펴보면, 이는 품질평가 과정에 얻어지는 각종 이미지나 기기분석의 결과인 분광학적 스펙트럼을 기반으로 생산현장에서 양품과 불량 판단 등의 품질분석 결과 판정에 효과적으로 활용하는 것이다.

한 가지 예로 당사에서는 국립과학수사연구원에서 수년간 생산된 기기분석 데이터를 처리·가공하여 인공지능 기반으로 인화성 물질 포함 여부를 객관적으로 예측·판정할 수 있는 시스템을 구축하였다.

화재 현장에서 채취한 샘플에 방화물질이 포함되어 있는지 판독을 위해 GC-MS 스펙트럼 분석 시 인공지능을 활용하여 방화물질 포함 여부를 판정한다.

인화성 물질의 존재 유무를 정량적인 수치로 예측함으로써 연구원들의 판단에 사전 기초 자료를 제공하여 신뢰성을 확보하는 데 도움을 주고 있으며 향후에는 인공지능에 의한 방화물질 감식의 완전 대체를 기대한다.

제품의 최적 성분 및 조성 예측

고분자 소재의 성분과 조성을 최적화하는 과정에서도 인공지능이 활용될 수 있다.

타이어, 전선 케이블, 폴리우레탄 등의 고분자 소재 연구개발 과정에서 축적된 실험 자료를 기반으로 조성 설계 시스템을 구축하여 고효율 저비용의 제품개발이 가능하다.

원료 및 첨가제 배합 비율에 따른 고분자 소재의 다양한 제품 물성을 예측하거나, 원하는 목적 물성에 적합한 원료 및 첨가제의 성분 및 조성을 추천한다.

또한, 새로운 실험 자료를 추가하여 모델을 자동 갱신할 수 있는 자가 학습 시스템을 구축하여 지속적인 모델 정확도 개선이 가능하다.

당사에서는 자체 출원한 조성 추천 시스템 특허에 기반하여 다양한 고분자 제품의 성능 향상을 위한 성분 및 조성 최적화와 관련된 기업 자문을 수행하고 있다.

사고 선행 예측 및 공정 조건 최적화

인공지능은 사고를 조기에 감지할 수 있는 변수를 발굴하여 공정 사고를 선행 예측하거나, 생산공정의 운전 변수(Tag)를 최적화하여 제품품질 향상 및 수익 개선에 기여할 수 있다.

제조공정에서 사고란 기업의 존폐에 영향을 줄 수도 있는 매우 큰 손실을 초래할 수 있는 사건이며, 현재는 변수의 관측에 기반한 사후 판정이 일반적 수준이다.

인공지능을 활용하면 사고나 사고의 징후를 조기에 발견할 수 있는 민감한 변수의 개발을 통해 이상징후 발생 시 공정 인자를 사전에 재조정함으로써 사고를 예방할 수 있어 기업의 안정적 운영에 도움을 줄 수 있다.

그뿐만 아니라 인공지능은 고전적인 통계적 생산 관리와 연계하여 제품의 품질 결과와 생산공정데이터 간의 상관관계 분석을 통하여 품질에 영향을 주는 주요 변수를 선정하고 품질을 향상할 수 있는 한 차원 고도화된 공정 조건 최적화를 수행할 수 있다.

생산현장에서는 품질에 기반한 공정 최적화뿐만 아니라 가장 경제적으로 제품을 생산할 수 있도록 하는 경제성에 기반한 공정 최적화도 중요한 과제이다.

제품 생산 과정에서 발생하는 수익(제품 및 부산물 판매)과 지출비용(원료 및 에너지 소비)을 기반으로 경제성 모델을 정의하고, 수익성과 공정 변수 간의 상관 분석을 통해 수익을 최대화하는 방향으로 공정 변수를 최적화함으로써 기업의 이윤 극대화에 기여할 수 있다.

글을 마치며

앞서 언급한 바와 같이, 섣부른 과학 분야의 인공지능 응용은 또 다른 실패를 양산할 수 있기에 과학 분야 데이터의 특이성을 고려한 신중한 접근이 필요하다.

보편적 인공지능 방법론을 바로 적용한다면, 현재 축적된 기업 데이터의 비체계성, 비균질성, 비정형성으로 인해 오히려 잘못된 결과를 예측하게 될 수도 있다.

따라서 장기적이고 체계적인 데이터 수집 전략이 선행되고, 그 후에 인공지능 기술들을 적절하게 적용하는 순차적인 접근이 절실하다.

이러한 접근 방법에 있어서, 필자의 관점에서 가장 중요한 항목을 선정해 보면 우선 단기적으로는 (1) 시급성에 기반한 집중 과제의 선정, 착수 및 성공 사례 도출이 필요하며, 이와 병행하여 장기적으로 (2) 연구-개발-생산-품질의 전주기를 걸친 각 단위 과정 데이터의 체계적 수집 체계 구축과 (3) 수집된 전주기 데이터의 통합적 연계를 위한 분석 시스템의 확보가 필요할 것으로 판단된다.

첫 번째 항목인 집중 과제의 선정과 우수 성공사례의 도출은 기업에 따라 상황이 달라 기업이 자체적으로 판단해야 하기에 추가 서술을 생략한다.

두 번째 항목인 전 주기에 걸친 단계별 데이터 취합에 대하여 논의해 보면, 생산이나 품질과 연계된 데이터는 일반적으로 정형화된 데이터이며, 대기업의 경우에는 기반 IT 시스템인 ERP(Enterprise Resource Planning), MES(Manufacturing Execution System), RTDB(Real Time Database), LIMS(Laboratory Information Management System) 등을 통해 비교적 체계적으로 수집되어 있다.

그러나 연구개발 과정 중에 발생하는 데이터는 스펙트럼, 이미지 등의 다양한 비정형 데이터를 포함하기에 데이터의 취합 및 전처리에 어려움이 있다.

또한, 표준화된 양식을 기반으로 데이터를 취합하는 문화가 아직 국내 기업에 정착되어 있지 않아 많은 어려움이 존재한다.

이러한 취약점을 조기에 극복하기 위해서는 내부에 전담팀을 구성하여 전문가의 도움을 받아 총괄적 청사진에 기반한 순차적인 장기 로드맵을 구축하고 이에 기반하여 순차적으로 자체 시스템을 구축하거나 기업에 적합한 표준화된 상용시스템의 도입을 추천한다.

마지막 중요 항목인 전주기(연구-개발-생산-품질) 데이터의 연계분석은 총괄적 디지털 맥락화로 대변될 수 있으며, 이는 연구개발로부터 제품 출하의 전 과정에 사용되는 다양한 데이터베이스의 모든 인자를 전체 단계 및 공정에 따라 문맥화하고 분석이 필요하거나 문제가 발생할 경우 필요한 데이터를 실시간 추출하여 분석할 수 있는 시스템의 구축을 의미한다.

다국적 제약사의 경우 이미 이러한 시스템을 구축하여 제품의 개발, 이관, 양산, 품질관리에 활용하고 있다.

4차 산업혁명과 스마트 제조의 물결은 산업 분야나 기업에 따라 조금씩 다르겠지만, 연구 개발을 포함하는 과학 분야에도 전 주기에 걸친 단위 데이터 취합 시스템의 구축과 전 주기 통합 디지털 문맥화를 기반으로 그리 머지않은 시기에 커다란 파란을 일으킬 것으로 판단되며 필자는 과학 분야에서의 기술적 특이점도 10년 이내에 50%에 도달할 것으로 조심스럽게 예측한다.

이제 또 다른 과학 혁명을 위한 10년 후를 준비할 시기이다.