SPECIAL ISSUE 04

빅데이터가 몰고 올 공공서비스의 변화

몰1.JPG



정부를 포함한 공공기관이 보유한 데이터는 매우 큰 규모이며 가장 가치가 있는 빅데이터 중 하나이다. 이를 제대로 수집하고 활용한다면 큰 부가가치를 창출할 수 있다. 그러나 대부분의 공공데이터는 각각의 목적에 따라 수집되고 폐쇄적으로 관리되어 통합과 연계가 어려운 것이 현실이다.

따라서 최근 미국과 선진국을 중심으로 이들 공공데이터의 공개와 연계가 본격적으로 논의되고 있으며, 빅데이터 활용 정책이 화두로 등장하고 있다. 공공부문에서의 빅데이터는 범 정부적 정책 차원에서 접근해야 할 문제로, 우리나라도 이에 대한 본격적인 논의가 필요한 시점이다.



공공기관은 공적 목적을 위해 데이터를 수집하고 이를 정책개발에 활용한다. 예를 들어 물가, 인구, 범죄, 교통 등의 정보 없이는 주민을 위한 정책개발은 생각도 할 수 없다.
 
인터넷이 널리 사용되기 이전에는 데이터 수집이 제한적이었고, 본래의 목적을 달성하면 해당 데이터는 폐기되거나 방치되었다. 데이터의 보관과 배포에 많은 비용이 필요하기 때문에 일정 기간이 지난 데이터는 폐기하는 것이 당연시 되었다.

그러나 디지털 방식의 정보처리가 가능해지면서 데이터를 저렴하게 보관할 수 있는 방법이 생겼고 데이터의 배포는 기술적인 문제가 아니라 제도의 문제로 바뀌었다.

일례로 버스도착 정보를 제공하는 스마트폰용 앱의 등장과 함께 제기된 공공데이터 활용 문제가 그것이다. 즉 공공데이터를 왜 공공기관이 독점해야 하는가에 대한 근본적인 이슈가 제기된 것이다.
 
공공데이터를 민간에 개방할 경우 새로운 가치를 창출할 수 있을 뿐더러 공공기관의 투명성 및 효율화에 도움을 줄 수 있을 것이라는 기대가 확산되었다.

그러나 버스도착 정보 앱, 부동산 정보 앱 등 몇 가지를 제외하고는 공공데이터를 활용한 예는 쉽게 등장하지 않고 있다. 이는 쓸만한 공공데이터를 확보하기 어렵고 데이터 제공방법, 데이터의 품질 등과 관련된 문제를 이유로 들 수 있다.


빅데이터의 등장

2011년 컨설팅 회사인 매킨지에서는 급격히 데이터가 증가하는 현상을 빅데이터로 명명하고, 이를 새로운 도전의 기회라는 취지의 보고서를 발표했다.

수천 대의 컴퓨터를 연결한 클라우드 컴퓨팅 환경, 대량의 데이터를 분산 처리할 수 있는 소프트웨어, 그리고 이러한 처리 결과를 해석할 수 있는 데이터 과학의 힘을 빌리면 데이터는 쓰레기 더미가 아니라 큰 가치를 갖는 자원이 될 수 있다는 논리이다.

특히 빅데이터를 사용하지 않는 기업은 빅데이터를 활용하는 기업과의 경쟁에서 낙후될 수 있다는 논리를 제시하자, 빅데이터는 IT업계의 화두를 넘어 IT기술을 사용하는 모든 기관에 그 중요성이 전파되었다.

빅데이터의 활용은 먼저 인터넷 기업에서 시작되었다. 이베이나 아마존 같은 기업은 고객이 주문했거나 관심을 갖고 있던 상품데이터를 통해 고객의 성향을 파악하여 고객이 가장 원할 것 같은 상품정보를 제공한다. 당연히 매출이 증가하여 기업은 이익을 얻고 고객도 만족한다.
 
제조 중심의 대기업은 제조과정에서 얻어지는 데이터를 바탕으로 제조공정을 합리적으로 개선하는 데 사용할 수 있다. 즉 이전에는 데이터를 분석할 능력이 없어 쌓아 놓기만 했던 데이터를 잘 활용한다면 기업뿐 아니라 정부를 비롯한 공공기관의 효율을 높일 수 있다는 결론을 얻는다.


공공데이터의 빅데이터 특징

매킨지는 빅데이터를 기존의 데이터베이스 도구로는 처리가 불가능하거나 매우 어려운 데이터 세트라고 정의하였다. 이러한 정의를 그대로 적용하면 버스도착 정보와 같은 서비스는 빅데이터를 활용했다고 보기는 어렵다. 기존의 도구로도 개발 가능했기 때문이다.

IT 분야의 컨설팅 회사인 가트너는 빅데이터를 데이터의 특성에 따라 3V로 구분한다. 3V는 데이터의 크기(Volume), 속도(Velocity), 다양성(Variety)을 의미한다. 3V의 특성 중 하나 또는 둘 이상의 특성을 가진 것을 빅데이터로 정의하는 방식이다.

데이터의 크기가 클 경우 여러 개의 코어를 사용하는 클라우드 컴퓨팅 환경을 이용하여 처리 속도를 개선할 수 있다. 센서에서 입력되는 데이터는 지속적으로 데이터를 생산하기에 역시 많은 컴퓨팅 자원을 필요로 한다.

다양성의 예로는 단순한 표 형식의 데이터가 아니라 일반 문서나 트위터 메시지와 같이 내용을 이해하지 않으면 분석이 불가능한 비정형 데이터가 포함되는 경우를 말한다. 비정형 데이터는 기존의 단순 통계처리로는 해석이 어려우며 데이터마이닝, 머신 러닝과 같은 새로운 기술이 필요하다.

공공부문을 대표하는 정부가 보유한 데이터의 경우 다른 데이터에 비해 상대적으로 데이터의 가치가 높다. 바꾸어 말하면 제대로 수집되고 활용된다면 큰 부가가치를 창출할 수 있다.

버스 위치 정보와 같이 센서에서 얻어지는 데이터만 가지고 어플리케이션을 개발하는 경우도 있으나 대부분의 공공데이터는 한 기관에서 제공하는 데이터만으로는 분석이 어렵고 여러 기관의 데이터를 종합해야 사용이 가능하다.

예를 들어 복지정책을 검토하기 위해 데이터를 분석하려면 국세청의 납세 데이터, 행정안전부의 가족관계, 노동부의 고용 데이터, 의료보험 데이터 등 여러 기관의 데이터를 종합해야 한다.따라서 공공데이터는 여러 개의 데이터 세트를 통합하여 활용할 경우 그 가치를 인정받을 수 있다.
 
그러나 대부분의 공공기관 전산 시스템은 특정 부서의 업무를 지원하기 위해 개발되었기 때문에 타기관의 시스템과는 연계되지 않은 경우가 대부분이다. 그리고 이러한 전산 시스템은 업무처리를 위해 개발된 것이므로, 업무에 관련된 정책을 개발하는 데 사용되는 예는 극히 일부분이다.
 
따라서 공공데이터는 데이터의 크기보다는 데이터의 연계성을 감안한 데이터 수집이 가장 중요하며, 이 점이 기업적 관점의 빅데이터와의 차이이다.


그림1 분야별 빅데이터의 특성
 

몰2.JPG



공공데이터 분석

빅데이터의 기본 아이디어는 데이터로부터 통찰력을 얻는 것이며 이는 기존의 처리방식과 근본적으로 다르다. 즉 빅데이터 분석은 직접적인 정답을 얻는 것이 아니라, 새로운 현상을 발견하고 해답의 실마리를 제공하는 것이라는 점을 이해할 필요가 있다.

물가 문제를 예를 들어 보자. 특정 야채 값이 급격히 오를 경우 해당 농산물을 외국에서 수입하는 것은 하나의 답이 될 수 있으나 정답이 아닐 수 있기 때문이다. 물가 상승이 생산자의 문제인지, 보관이나 유통의 문제인지, 특정 업체의 독점에 의한 것인지는 실제 데이터를 모아 분석을 해야 원인 파악이 가능하다.
 
지역별로 물가가 다르거나 특정 창고에 보관량이 많다고 하면 물가불안의 원인을 쉽게 알 수 있다. 이러한 분석을 위해서는 분석 대상이 되는 물가 데이터를 자동적으로 얻고 이를 쉽게 볼 수 있는시스템을 구축하면 분석이 가능하다.

기존의 전산 시스템 개발 프로세스는 먼저 시스템 분석을 하고 이에 따른 프로그램을 개발하는 방식으로 진행되며 데이터 자체는 프로그램 개발에 중요한 요소가 아니었다.

이에 반해 빅데이터 분석은 데이터의 수집에서부터 시작된다. 데이터를 어떻게 수집할 수 있는지, 이미 데이터를 확보했다면 어떠한 특성을 갖고 있는지를 파악하는 것이 우선이다. 데이터의 수집이 가능하지 않다면 시스템 개발의 의미가 없기 때문이다.
 
다음 단계로 수집된 데이터에 포함되었을 가능성이 있는 에러를 찾아내고 이를 해결한다. 에러는 여러 가지 형태로 나타난다. 정형 데이터베이스의 경우 숫자로 표시되어야 할 항목이 공백으로 표시될 수도 있고 표시된 값이 정상치 이외의 값을 표시할 수도 있다. 이를 근사한값으로 채우거나 데이터에서 제외시켜 문제를 해결하기도 한다.

에러가 있어도 처리할 수 있다는 것은 기존 시스템에서는 상상하기 어려운 내용이다. 빅데이터 처리에는 에러가 포함될 수 있다는 것을 염두에 두고 진행해야 하는 것이다.

다음 단계로 데이터 분석에 적합한 분석 방식을 적용한다. 빅데이터 분석은 애널리틱스라는 새로운 단어를 사용한다. 이는 빅데이터를 분석할 경우 하나의 방법론이 있는 것이 아니라 데이터의 유형에 따라 다른 방법이 사용되어야 하며 경우에 따라서는 분석 방법 자체를 새롭게 연구해야 함을 뜻한다.
 
정해진 틀이 없기에 다양한 분석 방법을 시도하고, 결과에서 찾고자 하는 의미를 얻지 못하면 다른 방법을 적용하는 일을 반복해야 한다.

이러한 과정을 거쳐 얻어진 분석 결과는 문장으로 기술하기보다는 비주얼라이제이션을 통해 제공된다. 비주얼라이제이션 결과는 여러 가지 내용을 포함하고 있기에 하나의 사실을 확인한다기보다, 이를 보는 사람의 능력에 따라 다른 결과를 얻을 수 있다.
 
따라서 빅데이터 연구는 데이터에서 통찰력을 얻을 수 있는 비주얼라이제이션을 보다 효과적으로 추출해내는 연구라 할 수 있다.

비주얼라이제이션은 특정한 현상에서 의미있는 분석을 이끌어낼 뿐 아니라, 사용자와의 인터랙션이 가능해, 공공정책을 설명하고 설득하는데 매우 유용한 도구로 활용될 수 있다. 공공분야에서 빅데이터의 활용이 주목받는 이유다.


데이터 비주얼라이제이션

데이터 비주얼라이제이션은 빅데이터라는 단어가 이슈가 되기 이전부터 정보의 제공방법으로 활용되어 왔었다. 국회의원 선거 결과를 개표진행에 따라 보여주는 것은 비주얼라이제이션의 좋은 예라고 할 수 있다.

그러나 이는 비주얼라이제이션 중에서 초보적인 단계로, 이를 잘 활용하면 사용자와의 인터랙션도 가능하다. 외국의 경우 정부나 공공기관의 정책을 설명하기 위해 이미 다양한 분야에서 비주얼라이제이션을 활용하고 있다.

‘유럽의 에너지’라는 비주얼라이제이션은 유럽 국가의 이산화탄소 배출량, 재생에너지, 에너지 의존도 등의 다양한 통계정보를 인터랙티브 애니메이션으로 보여준다(<그림2> 참조). 복잡한 문서로 설명하는 대신 하나의 비주얼라이제이션이 얼마나 많은 통찰력을 제공할 수 있는가 하는 좋은 예로 볼 수 있다.


그림2 유럽의 에너지
 

몰3.JPG



영국의 경우 “내가 낸 세금이 어디에 쓰이나”라는 비주얼라이제이션은 영국 정부의 총 예산이 실제적으로 사용되는 목적을 일반인이 이해할 수 있는 쉬운 단어를 사용하여보여준다(<그림3> 참조).


그림3 내가 낸 세금은 어디에 쓰이나
 

몰4.JPG



가장 큰 비중을 차지하는 복지를 선택하면 복지 예산의 세부항목과 해당 예산이 어느 지역에서 많이 집행되는가를 함께 보여 준다.

우리나라의 경우 공공데이터를 활용한 비주얼라이제이션으로는 폴리티즈(Politiz)를 들 수 있다. 2008년부터 2012년 5월까지 활동한 18대 국회의 국회의원이 본회의에서 투표한 기록을 바탕으로 국회의원의 성향을 쉽게 알 수 있도록 한 사례이다.

문서로 제시된 의원의 투표 기록이 이해하기 쉬운 그래프로 바뀐 것을 볼 수 있으며 빅데이터 분석의 의미를 알게 해준다(<그림4> 참조).


그림4 투표 데이터로부터 얻어진 비주얼라이제이션
 

몰5.JPG



공공데이터의 활용

공공데이터는 국민에게 서비스를 하는 과정에서 얻어진 데이터가 대부분이다. 그러나 앞서 언급했듯이 기관마다 데이터를 독립적으로 보유하고 있으며, 기관 고유의 업무에만 활용하는 것이 보통이다. 공공기관이 배타적으로 데이터를 보유하고 있는 현상을 곡물창고에 비유해 사일로(Silo)1)라는 단어로 설명한다.

(1) 사일로(Silo) 현상 : 부서 또는 조직 단위로 데이터를 관리하여, 서로 데이터가 일치 하지 않는 현상)

이는 우리나라만의 문제가 아니라 대부분의 국가에서 문제점으로 지적되고 있다. 공공데이터를 제대로 활용하기 위해서는 기관이 보유하고 있는 데이터를 연결하여 사용할 수 있는 제도가 뒷받침되어야 한다.

공공데이터를 분석할 경우 얻어지는 효과는 대국민 서비스 개선과 정부의 효율화를 들 수 있다.

홍수나 구제역 같은 재난 대처시 실시간 전조감지 데이터를 이용하여 기능성을 조기에 예측함으로써 피해를 최소화할 수 있다. 계절적으로 발생하는 농산물의 가격 폭등이나 담합에 의한 특정 물가의 폭등 등은 생산지 데이터, 유통 데이터를 분석하면 이에 대한 처방을 쉽게 얻을 수 있다.
 
한 마디로 정의하면 정부나 공공기관에서 새로운 정책을 개발하고자 할 경우 관련된 데이터를 얻을 수 있는 모든 분야에서 빅데이터 기술을 활용할 수 있다.

사일로 문제의 해결은 많은 기간이 필요하며 이를 해결한 사례는 외국의 경우에도 보기가 쉽지 않다. <그림5>와 같이 샌프란시스코를 비롯한 미국의 몇 개 시는 범죄 데이터를 공개하여 범죄시간과 범죄의 형태를 비주얼라이제이션으로 제공한다.

이를 통해 일반시민은 어디가 위험지역인지 알 수 있어 사전에 대비할 수 있으며 경찰은 범죄에 대처하는 정책을 개발할 수 있고 새로운 대책에 대한 실질적인 개선을 확인할 수 있다.


그림5 샌프란시스코 범죄장소 비주얼라이제이션
 

몰6.JPG



영국 런던에서는 새로운 직장을 얻은 시민에게 주거지를 어디로 하는 것이 적절한가 하는 정보를 제공한다(<그림6> 참조). 필요한 방의 개수와 임대/구입 여부, 구입이나 임대비용, 예상하는 출퇴근 시간을 입력하면 선택가능한 지역의 지하철역을 기준으로 보여준다.


그림6 영국 런던의 새 주거지 찾기 서비스
 

몰7.JPG



공공데이터 개방과 전자정부

정부를 포함한 공공기관이 보유한 데이터는 매우 큰 규모이며 가장 가치가 높은 데이터 중 하나이다. 공공데이터는 여러 가지 제도나 개선 의지 부족으로 활용이 어렵다는 문제점을 갖고 있다.

미국의 오바마 대통령은 2009년 대통령에 취임하면서 “오바마 정부는 이전에 유례가 없는 수준으로 정부를 개방한다”고 천명했으며 이를 ‘오픈 거버먼트 이니시어티브(Open Government Initiative)’라는 이름으로 명명하였다.

그 실천방안으로 data.gov라는 사이트를 개설했고 미국정부의 여러 부처에서 제공하는 데이터세트의 존재를 알리고 이들 데이터를 얻을 수 있는 링크를 제공하고 있다.

미국 정부는 빅데이터가 이슈화되자 2012년 3월 다른 나라보다 먼저 빅데이터 이니시어티브라는 이름으로 빅데이터 연구
에 2억 달러를 투자하기로 했으며 동시에 공공데이터 개방을 추진하고 있다.

영국의 경우에는 데이터의 공개정책은 미국보다 늦게 시작했으나 인터넷의 발명가로 알려진 팀 버너스 리(Tim Berners Lee)2)를 정책 추진의 책임자로 임명하여 미국보다 높은 강도로 정부가 보유한 데이터를 공개하고 있다.
 
(2) 월드와이드웹(WWW)의 창시자. 1989년에 글로벌 하이퍼텍스트 공간 개념을 제시하였는데, 이 개념을 바탕으로 탄생한 것이 바로 월드와이드웹이다. 버너스리의 아이디어 공개를 통해 전 세계 인터넷 시대의 문이 열렸고, 이후 월드와이드웹은 인터넷 주소 체계인 URL 등으로 발전하였다.)

영국의 데이터 제공 사이트인 data.gov.uk의 경우 단순한 데이터 제공보다 한 발 더 나아가 링크드 데이터 방식을 사용해 우리가 사용하는 웹을 머신이 이해하고 정보를 스스로 찾을 수 있도록 하는 방향으로 데이터를 제공하고 있다.

우리나라의 경우 빅데이터에 거는 기대가 무척 크다. 인터넷에서 빅데이터라는 단어의 사용빈도가 가장 높은 국가이기도 하다.

공공데이터의 개방 전략은 공공기관의 하부조직부터 시작하기는 매우 어렵다. 부처의 이해관계에 얽매어 국가라는 큰 틀에서 얻는 장점을 보기 어렵기 때문이다.

새롭게 들어서는 정부의 경우 국가 경쟁력을 높이기 위한 새로운 수단으로 공공데이터의 개방과 정부 자체의 정책 개발에 빅데이터를 이용하기를 기대한다.