빅데이터 활용하기 - 의사결정, 직관 대신 데이터를 선택하라
최근에 제기되고 있는 빅데이터 활용, 특히 비정형 데이터 분석은 기존의 텍스트마이닝, Semantic 분석 등을 바탕으로 융합함으로써 그동안 미처 깨닫지 못한 Insight를 확보하는 역할을 하고 있다.
최신 이슈, 소비자 관심사, 경쟁사 등에 대한 Trend 등을 신속하게 직관적으로 확인할 수 있으며, 고객의 불만이 무엇인지, 어떤 여론이 형성되고 있는지 등을 찾아내면 보다 나은 서비스 제공이나, 전략적인 의사결정이 가능해진다.
비즈니스 인텔리전스(Business Intelligence)는 기업에서 데이터를 수집, 정리, 분석하고 활용해서 효율적인 의사결정을 하는 방법에 대해 연구하는 학문이다.
기업경영에서 네비게이션 역할을 하는 것이 바로 ‘비즈니스 인텔리전스’이다. 비즈니스 인텔리전스는 경영인이 전략을 세우는데 필요한 데이터를 수집하고, 이 데이터를 가장 효과적이고 효율적인 방법으로 이용해 적절한 의사결정을 하도록 도와주며, 경영상의 다양한 위협이나 위험을 자동적으로 알려주는 시스템이라고 할 수 있다.
인텔리전스를 직역하면 ‘지식’, ‘정보’이며, 지식과 정보는 가공되어 특정한 의미가 내포된 데이터를 말한다. 때문에 비즈니스 인텔리전스는 데이터를 수집하고, 이 데이터를 가공하여 올바른 의사결정을 내릴 수 있도록 지원하는 시스템 및 기술이라고 할 수 있다(출처 : 위키피디아).
정형 그리고 비정형 데이터 개요
기업의 의사결정을 위해 데이터에서 정보를 추출하는 것은 아주 오래 전부터 시도돼 왔다. 예를 들어 어떤 영업사원의 실적이 가장 높은지, 어느 지역의 판매율이 안 좋았는지 등을 찾아내어 의사결정을 내리는데 참고해온 것이다.
이런 정보는 DB나 엑셀 등에 해당 수치들을 저장할 수 있고 또한 활용할 수 있다. 이와 같은 형태의 데이터를 정형/정량 데이터라고 볼 수 있다.
그러나 최근에는 불특정 다수의 사람들이 데이터를 생산하고, 하드웨어의 발전으로 다양한 종류의 대용량 데이터가 생산/저장되면서, 큰 데이터로부터 데이터 상호 간의 연관관계와 전반적인 흐름 등의 정보를 찾는 것은 보통의 방법으로는 불가능해졌다.
이처럼 대용량의 정형/정량 데이터에서 관계 패턴을 찾기 위해 주로 쓰이는 기법이 바로 통계학에 기반한 데이터마이닝(Data Mining)이다. 특정 제품에 대한 구매 후기, 상품평 그리고 SNS 등으로 공유되는 제품/인물 등에 관한 다양한 의견들은 정형 형태가 아니거나, 정량으로 표시할 수 없는 문서 데이터 즉, 글로 이루어진 데이터이다.
여기서 몇 사람이 구매후기나 상품평을 올렸는지, 몇 건의 SNS 데이터가 발생했는지는 정량이지만, 전반적으로 긍정적인 여론인지, 배송 관련 만족도는 어떠한지, 부정적인 의견의 비율은 얼마나 되는지 등의 정보를 추출하기 위해서는 그 기술된 내용을 분석해야만 가능하다.
이런 형태의 데이터가 비정형 데이터이며, 이 내용을 분석하여 정보를 추출하는 방법론으로 언어처리를 바탕으로 하는 텍스트마이닝(Text Mining)이 있다.
기업의 비정형 데이터 추세
<그림1>에서 나타난 바와 같이 전 세계 기업 데이터의 80%가 비정형 데이터이며, 전체 기업 데이터의 양이 크게 늘어나더라도 그 비율은 변동되지 않을 것으로 예측된다.
그림1 Worldwide Corporate Data Growth
비정형 데이터는 유지하는데 많은 비용이 소요되지만 내용을 일일이 확인해 바로 폐기하기도 어려운데다, 비정형 데이터 하나하나가 개별적 가치를 지닌다고 볼 수는 없다. 그런데 최근에 이 비정형 데이터를 분석함으로써 얻어지는 결과물을 비즈니스 인텔리전스에 적용하는 사례들이 나타나고 있다.
고객들이 상품을 구매하기 위해서 검색했던 키워드나 브라우징 내역 등을 저장/분석하여 새롭게 방문한 고객이나 연관된 검색어를 입력한 고객에게 그 유사 집단들이 주로 구매한 상품을 추천한다던가, SNS 정보를 분석하여 마케팅에 활용한다던가, 기술적인 기반은 좀 다른 경우이지만, 사내직원들이 생산한 문서들을 Topic Modeling하여 유사 관심사를 가진 개인이나 집단을 Grouping하거나, 관련 전문가를 추천한다던가 하는 등이 그것이다.
비정형 데이터의 정형화/정량화
정형/정량 데이터의 통계에 기반한 분석이나 비즈니스 인텔리전스 활용은 이미 기존에 연구가 많이 진행되었고, 발표된 여러 도구나 시스템을 통해 도움을 받을 수 있다. 이는 비정형 데이터가 어떤 방법으로든 정형화되거나 정량화된다면 기존의 방법으로도 얼마든지 활용이 가능하다는 뜻이다.
비정형 테이터 분석에 사용되는 텍스트마이닝은 자연언어 처리로, 이미 오래부터 활용해오던 기술이다.
<그림2>처럼 Document 데이터로부터 개체(Entity)인 이름과 주민등록번호를 추출하여 DB 테이블을 구성하여 사용하는 예와, <그림3>처럼 정보 검색이나 데이터 마이닝에서 사용하기 위해 Document 데이터에서 단어와 그 출현회수를 Feature로서 추출하는 예는 난이도의 차이만 있을 뿐 텍스트마이닝을 통해서 문서를 정형화한 것으로 볼 수 있다.
그림2 Document 데이터로부터 개체(Entity)를 추출하여 DB 테이블 구성
그림3 Document 데이터에서 단어와 그 출현 회수를 Feature로서 추출
최근 SNS의 급격한 확장으로 인해 Opinion Mining과 Sentiment Analysis에 많은 관심이 집중되고 있는데, 이 또한 텍스트마이닝을 통해서 문서의 내용을 분석하여 정형 또는 정량화한 후 다음 단계에서 활용하게 된다.
이전에 언급된 <그림2>, <그림3>과는 달리 Opinion Mining과 Sentiment Analysis에서는 의견이나 감성을 나타내는 표현(서술 어휘)들을 분류하고, 표현과 그 표현의 대상을 함께 쌍으로 추출한 다음 이것을 정량분석함으로써 전체 여론의 흐름을 판단하는 자료로서 활용이 가능하다. <그림4>는 이 같은 정량화의 내용과 방법을 간략히 설명하고 있다.
그림4 정량화 내용과 방법
비즈니스 인텔리전스에의 활용
Topic Modeling
대량의 비정형 데이터를 분석하여 비즈니스 인텔리전스에 적용하는 방법의 하나로 Topic Modeling이 있다.
대량의 문서 Collection에서 텍스트 원문을 모두 읽지 않더라도 주로 어떤 내용의 문서들이 있는지, 또는 어떤 것이 이슈가 되고 있는지를 파악해야 할 필요가 있을 때가 있다. 바로 이때 활용할 수 있는 방법이 Topic Modeling이다.
이는 통계를 기반으로 하는 대표적인 데이터마이닝 방법론이며, 주어진 데이터 묶음을 자동으로 조직화, 이해, 검색, 그리고 요약하기 위한 기술이다. 대량의 비정형 데이터에서 중심이 되는 Topic들을 찾아냄으로써 분석 대상에 대한 최신 이슈, 소비자 관심사, 경쟁사 등에 대한 Trend 등을 신속하게 직관적으로 확인할 수 있으며, 의사결정을 하는데 사용될 수 있다.
Opinion Mining
인터넷 내의 다양한 사이트에는 특정 제품, 기업, 사람 등에 대한 Buzz(평가, 관심, 이슈)가 갈수록 증가하고 있다. 이런 데이터에서 고객의 불만이 무엇인지, 어떤 여론이 형성되고 있는지 등을 찾아내면 보다 나은 서비스를 제공하는데 활용할 수 있으며, 전략적인 의사결정이 가능해진다.
최근 발매된 경쟁사의 휴대폰에 대한 커뮤니티에서 대체로 어떤 부분을 좋게 평가하고 있는지, 개선해야 할 부분이 무엇인지를 파악해서 신제품 개발에 반영한다거나, 현재 출시된 제품의 마케팅 방향을 설정할 수 있다.
또한 SNS 데이터를 가공하면 정치인들에 대한 현재 상태의 호불호나 특정 기간의 변화 추이 등을 한눈에 확인해볼 수 있으며, 급격한 변화가 있는 시기에는 어떤 여론들이 집중 생산되었는지 확인할 수 있을 것이다.
기업 경보
뉴스나 블로그, 주식 게시판 같은 웹 데이터에는 기업이나 사람에 대한 동향을 나타내는 비정형 데이터들이 있다. <그림5>의 예는 텍스트마이닝을 통해 기업 위기를 표현하는 정보만을 정확히 추출하는 예를 보여준다.
이 예에서 두 번째 문장에서도 ‘A사’, ‘위기’ 와 같은 단어가 등장하지만, 분석을 통해서 A사가 위험하다는 내용은 아닌 것을 알 수 있다. 이와 같이 분석된 정보를 통해서 동향 모니터링 및 경보에 활용이 가능하다.
그림5 텍스트마이닝을 통한 기업 위기 표현 정보 추출
콜 센터
콜 센터로 유입되는 문의사항들은 그 내용에 해당하는 업무 흐름에 따라서 처리될 것이다. 처리가 완료되어 저장된 데이터는 점점 늘어나게 되고 사람이 일일이 다시 확인하는 일은 불가능하게 되며 그대로 두면 쓸모없는 데이터가 될 뿐이다.
하지만 개별적인 데이터들은 고객들의 목소리가 담겨있기 때문에 이를 분석하여 이슈들을 추적하면 유의미한 정보들을 재생산할 수 있다. 또한 유사한 문의사항들과 그 처리 결과들을 결합/분석하면 이를 활용해서 새로 접수된 문의사항의 처리효율을 높일 수 있다. 또한 간략한 문의에는 즉석에서 간편하게 자동답변을 제공할 수도 있다.
맺음말
근래의 비정형 데이터 분석은 최근 과거 몇 년간 이슈가 되었던 텍스트마이닝, Semantic 분석과 그 궤를 같이 한다.
그러므로 기술적으로는 기존에 없던 전혀 새로운 방법론은 아니지만, 기존 기술의 응용, 융합을 바탕으로 하는 비정형 데이터 분석으로 미처 깨닫지 못한 Insight를 확보할 수도 있고, 이를 기업의 운영이나 경영에 서서히 적극적으로 반영하겠다는 인식이 형성되었다고 볼 수 있다.
비정형 데이터를 텍스트마이닝 등을 통해 정형/정량화하면, 직접 활용도 가능하며, 기존의 정형/정량 데이터 대상으로 통계학을 기반으로 발전해온 방법론 및 도구 등을 그대로 사용할 수 있다. 다양한 View와 Insight를 위한 기반이 마련되어 있는 것이다.
과거, 비정형 데이터로부터는 수량, 크기, 발생 건수 정도의 정보만 생산되었지만, 현재 및 이후에는 내부의 주제, 여론, 선호도, 의견, 감성, 흐름 등의 정보가 추출되어 정형/정량화됨으로써 여러 비즈니스 인텔리전스 영역에서 활용될 것으로 기대된다.