제26회 Koita기술경영인 하계포럼 - Tech강좌 [빅데이터]
구글 신은 아직도 모든 것을 알고 있다! - 빅데이터와 복잡계 네트워크
선거결과 예측에서 독감환자 수까지, 구글의 능력은 어디까지일까? 구글을 통해 바라본 빅데이터의 활용 사례와 그를 뒷받침하는 네트워크 과학의 소개를 통해 복잡한 21세기를 바라보는 새로운 과학적 시선을 소개하고자 한다.
발표_ 정하웅 KAIST 물리학과 석좌교수
복잡계 네트워크와 데이터과학
미래에 촉망받는 연구 분야로서 복잡계에 대한 관심이 대두되고 있다.
복잡계(Complex system)란 다양하고 많은 수의 구성요소들이 서로 간의 상호작용에 의해서 구성요소 하나하나의 특성과는 사뭇 다른 새로운 복잡한 현상이지만, 나름대로의 질서를 보여주는 시스템이라고 할 수 있다.
우리 주변을 둘러보면 거의 모든 것들은 다양하고 수많은 구성요소로 이루어진 복잡계이다.
예를 들어 많은 사람들이 서로 얽혀 있는 사회, 우리를 살아 있게 만드는 생명 현상, 수많은 컴퓨터들이 연결되어 있는 인터넷 등이 복잡계의 대표적인 예라 할 수 있다.
신경세포들이 연결되어 구성하는 뇌 또한 예외는 아니다. 이들은 모두 점과 선으로 연결된 네트워크이다.
복잡계 뿐만 아니라 세상의 모든 것은 네트워크이다. 세상을 이해하기 위해서는 네트워크를 이해해야 한다.
네트워크에서 허브가 중요한데, 사회 네트워크에서 허브보다 더 중요한 인물이 링커(Linker) 또는 매개자이다. 집단을 이어주는 다리역할을 한다.
기업은 구조를 갖추되 중간에 소통 채널을 두어야 새로운 프로젝트가 생겼을 때 누구를 쓸 것인지 등 유연하게 대처할 수 있다.
한 사례로 휴렛팩커드는 직원들의 업무 이메일을 분석하여 누가 누구와 이메일을 주고받았는지 네트워크를 그렸다.
이것을 보고 이메일을 많이 주고 받은 사람들 끼리 부서를 재배치하였더니 업무효율이 엄청나게 올라갔다. 네트워크를 그려보면 이러한 회사의 소통 구조를 파악할 수 있다.
구글 트렌드(www.google.com/trends)는 다양한 지역 및 사람들이 어떠한 단어들을 얼마나 검색하는지 인기 검색어를 분석하여 검색어 동향을 살펴볼 수 있는 구글의 서비스이다.
관심있는 단어를 넣으면 2004년부터 현재까지 해당 단어가 얼마나 많은 검색이 이루어졌는지를 보여준다.
사람들의 관심이 검색어 빈도에 반영되며 이는 사람들의 경제활동과도 연계된다는 연구 결과가 있다. 이러한 연구는 빅데이터의 다양한 활용성를 잘 보여준다고 하겠다.
내용의 검토 없이 숫자만 맹신하는 것은 금물이다.
데이터는 개별 데이터가 아니라 네트워크로 묶어서 보아야 한다. 딥러닝은 데이터를 네트워크로 가장 효율적으로 묶은 것이다. 전혀 다른 데이터들을 연결하면 안 보이던 새로운 것이 나온다.
새로운 기술이란?
미국 특허(960만 건)의 빅데이터를 분석했다. 분석결과, 조합 특허가 늘어나고 있었다. 어떻게 조합할 것인가?
네트워크를 분석하면 어떤 분야와 어떤 분야가 융합되었는지 기술의 트렌드를 알 수 있다.
또한 역발상으로 연결되지 않은 분야들을 결합할 수 있다. 데이터를 어떻게 연결하느냐가 중요하다.
빅데이터에는 함정이 있다. 많은 사람들이 데이터를 보고 헷갈리는 것이 양의 상관관계와 인과관계이다.
데이터는 양의 상관관계를 보여주지만 인과관계는 증명해 주지 않는다. 인과관계는 과학적으로 증명해 내야 한다.
데이터와 네트워크를 함께 생각하라. 모든 것의 가치는 연결에서 나온다.