데이터 기술(DT) 시대, 무엇을 할 것인가
▲ 글. 박형주 총장
아주대학교
빅데이터의 등장
얼마 전 중국에서 만난 대학 교직원과 대화하면서 ‘위안화 지폐가 새로 바뀌었다면서요?’라고 물었다.
그랬더니 모바일 페이로 모든 비용을 지불하고 현금없이 지낸 지 오래돼서 잘 모르겠단다. 알리페이의 힘이랄까.
음성뿐 아니라 영상이나 금융 데이터 등 최근 2년동안 전 세계 휴대 전화로 오간 데이터의 총량은 그 이전 인류 문명이 2천 년 동안 축적한 정보량의 10배 이상이라고 한다.
중국 알리바바 그룹의 창업자인 마윈은 이미 4년 전에 ‘정보 기술(IT)의 시대에서 데이터기술(DT)의 시대로’ 이전하고 있다는 말로 이러한 변화를 표현했다.
구글의 순다르 피차이 최고경영자가 말한 ‘모바일에서 AI로’나 한국 카카오의 김범수 의장이 최근에 ‘앞으로 10년은 데이터가 부가가치를 낳는 시대’라고 한 것도 같은 맥락이다.
최근 산업혁명으로 불릴 정도의 제조업 생산성 폭증의 원인으로 가상세계와 실물세계의 연결이 거론된다.
스마트 계량기로 집안의 전기 사용만 추적해도 에너지 빅데이터를 얻을 수 있는 것처럼, 그 연결의 출발은 실물세계의 디지털화다.
사물인터넷을 통해서 빅데이터가 확보되는 것이다.
건강검진이나 공공 서비스 기록 등도 디지털화를 통해서 빅데이터로 전환되고 있고, 과학기술의 전 영역에서 이루어지는 이론 및 실험 연구에서도 방대한 데이터가 확보된다.
한국 IDC 보고서에 의하면, 2015년 국내 빅데이터 시장은 2,623억 원 규모로 전년 대비 30% 이상 성장했다.
빅데이터의 처리
DT 시대가 오는 것은 분명한데, 이를 성공적으로 준비하려면 무엇을 해야 할까? 미래 산업의 연료인 데이터를 부지런히 모으고 선진국에서 개발한 분석 알고리즘을 가져다 쓰면 되는 걸까?
일자리 전문기업 글래스도어닷컴의 2015년 자료에서 미국의 가장 좋은 직업 25개 중 1위인 데이터 사이언티스트의 연봉은 20위인 데이터 분석가의 두 배이다.
빅데이터를 모아서 분석하는 수준에 머무르지 않고, 데이터의 의미를 읽어내고 미래 전략을 도출하는 수준이 되면 그 가치가 두 배로 뛴다는 것이다.
확보된 빅데이터에는 유의미한 정보와 무의미한 정보가 혼재돼 있다.
여기서 유의미한 정보를 끄집어내는 과정에서 각종 알고리즘이 사용된다. 최근 인공지능 연구의 발전으로, 차량공유 기업인 우버가 ‘몇 시쯤엔 어디에서 사람들이 차량을 필요로 하는지를 이해하고 미리 그곳에서 대기하는 방식’의 사업 모델을 만든 것처럼 사업화 가능성은 끝이 없다.
알리바바의 마윈은 빅데이터와 클라우드를 활용한 상거래 분석으로, 중국 같은 거대한 국가에서 현금 없이 소비가 가능한 세상을 구현해 냈다.
구글은 유튜브의 방대한 동영상 데이터베이스에서 자동으로 강아지와 고양이를 구별하는 수준에 다다르는 데 오랜 시간과 노력을 들여야 했다.
구글 포토는 이제 딥러닝 방식으로 사진을 비교하여 자동 분류하고, 구글의 자회사인 딥마인드는 딥러닝을 발전시켜 알파고를 만들어서세계를 깜짝 놀라게 했다.
의료 분야에서도 빅데이터와 인공지능 방식이 사용되면서 영상 판독이나 진단의 정확도에서 혁신이 일어나고 있다.
MRI는 난해한 수학 방정식을 수치적으로 푸는 방식인 역문제 해결을 통해서 의료 영상을 만들어 내는데, 여기에 기계학습을 적용하면 동일한 하드웨어로도 훨씬 더 선명한 영상을 얻을 수 있다.
기본적인 생체데이터를 측정해서 이전 환자 생체 빅데이터와의 유사성을 재는 방식으로도 상당한 수준의 질병 진단이 가능하다.
알파고와 이세돌을 보면서 많은 사람들은 1997년 IBM 슈퍼컴인 딥블루가 체스 챔피언을 이기던 장면을 떠올렸다.
하지만 두 사건은 닮은꼴이 아니다. 체스 상대방이 한 수를 두면 내가 둘 수 있는 점이 몇 개로 정해지는데, 가능한 게임 시나리오가 평균 2억 개쯤 된다.
딥블루는 이렇게 모든 경우를 다 두어보는 전수 계산으로 각 착점의 승리 확률을 계산했다. 계산자원의 승리, 하드웨어의 승리다.
하지만 바둑에서는 가능한 게임 시나리오가 우주에 있는 원자의 수보다 많다.
무한정 하드웨어에 투자해도 이것을 다 두어볼 수 없으니, 착점별 승리확률을 계산해 낼 방법이 없다.
알파고는 이길 가능성이 작은 엄청나게 많은 시나리오를 제거하는 방식으로 30초동안 평균 10만 번 정도만 두어보고 각 착점의 승리확률을 계산했다.
어떤 경우를 배제할 것인가를 결정하기 위해서 딥러닝이나 무작위 검색(MCTS) 등을 조합한 알고리즘을 만들었다.
그러니 알파고 사건은 하드웨어가 아니라 알고리즘의 승리다.
데이터 분석 방법은 통계학을 넘어 새로운 혁신적 기법으로 영역을 넓히고 있다.
빅데이터의 ‘모양’을 새로운 유의미한 정보로 받아들인 미국 스타트업 아야스디는 기본적인 생체데이터로부터 당뇨병 여부나 당뇨병 유형까지 자동으로 알아내서 처방하는 수준에 다다랐다.
이와 유사한 위상수학적 데이터 분석법을 비정형 소재 개발에 적용한 일본 도호쿠대학 첨단소재연구소 수학자들의 논문은 사이언스지에 게재됐다.
데이터 수집과 분석을 넘어서 이런 알고리즘 연구와 개발 능력을 보유해야 한다.
빅데이터 산업을 가로막는 규제
IT 선진국인 우리나라의 기업들이 친숙한 IT와 모바일의 세상을 벗어나서 그 이후를 준비하지 않는다면 위기가 올 수밖에 없다.
공인인증서나 액티브엑스의 예처럼, 법과 제도를 통한 규제는 혁신을 불가능하게 한다.
최근 사법적 처벌에 직면한 차량공유 스타트업 사례는 과잉 포지티브 규제의 대표 사례가 됐다.
정부의 정책에 따라 우리나라 공공 영역 데이터의 공개는 크게 확대되었다. 하지만 엑셀 파일이나 한글 파일 같은 제각기의 방식으로 공개하는 혼란 때문에, 상당한 수고를 들여 사후처리(Post-processing)를 해야 하는 난맥이 지속되고 있다.
단순 개방 정도를 측정하는 공공 데이터 개방지수에서 한국이 1위인데도, 개방형 데이터의 품질까지 고려한 세계 공공 데이터 지수에서는 한국이 23위에 그치는 이유다.
데이터의 표준화된 공개 정책을 수립해서 공공 영역 데이터의 활용도를 올려야 한다.
확보된 데이터를 로컬 서버에 저장하는 예전의 방식으로는 광범위한 사용자의 협력적 사용을 통해 분야 간 융합으로 이어지는 게 불가능하다.
이러한 이유로 민간 영역뿐 아니라 미국 국방성의 제다이프로젝트에서 보듯이 공공 영역에서도 데이터의 클라우드 저장을 확대하는 것이 세계적 추세이다.
우리나라에서는 보안을 이유로 공공기관의 클라우드 활용이 봉쇄되면서 스마트 워크가 불가능해졌고, 이는 공공 분야 생산성의 감소로 이어졌을 뿐 아니라 민간 영역에서도 클라우드의 활용은 세계 수준을 한참 밑돌게 됐다.
인터넷 기업 아마존의 매출 대부분이 전통적인 판매업이 아니라 클라우드 부분에서 발생되는 걸 보면 부러울 수밖에 없다.
암호 기술과 블록체인 등을 활용하는 클라우드 보안 표준을 수립해서 공공기관의 클라우드 사용 규제를 완화하고 정부 생산성 증대를 모색해야 한다.
현재 추진 중인 데이터 관련 입법이 조속히 이루어져서 클라우드 후진국의 오명을 벗기를 고대한다.