빅데이터 활용 어떻게 관리하고, 무엇을 준비할까?
IT 산업계 전체를 흔들고 있는 빅데이터라는 개념은 기존의 해결책을 제시하는 수많은 IT 개념들(OLAP, Data Warehouse, Data mining, CRM, ERP)과는 다르게 문제 그 자체를 기술용어로 사용한다는 점에 있어 기존의 IT 개념들과 큰 차이가 존재한다.
2~3년 전까지 주로 국내 포털회사, 통신사 등에서 빅데이터 관련 프로젝트들이 진행되었으나, 올해부터는 일반 기업들도 본격적으로 빅데이터를 활용하는 방안을 검토하기 시작했다.
빅데이터를 비용 효율적으로 활용 가능하도록 하는 기술적 근원은 하둡(Hadoop)이라는 분산파일시스템 기반의 병렬처리기술이며 최근 오라클을 비롯한 다양한 IT벤더에서 관련된 Product들을 출시하고 있다.
본 고에서는 빅데이터를 관리하고 활용하기 위한 방안들에 대해 알아보기로 한다.
빅데이터 열풍의 기술적 근원은 하둡(Hadoop)
전 세계적으로 IT 관련된 수많은 용어가 이슈화 되었지만 2012년 ‘빅데이터(Big Data)’만큼 많은 관심을 받은 용어는 없을 것이다. 흥미로운 사실은 현재까지 이슈가 되고 실제로 구현되었던 수많은 기술들은 해결책에 관한 것이었고, 빅데이터는 정확히 반대의 의미로 논의되고 있다는 점이다.
예를 들어 OLAP, Data Warehouse, CRM, SCM, ERP, Data mining 등의 기술은 문제점을 해결하기 위한 개념이었고 지난 수십 년간 많은 시도들과 성과가 있었다. 하지만 빅데이터는 해결의 방법을 정의하는 단어가 아닌, 문제 그 자체에 대한 개념을 의미한다는데 있어 큰 차이점이 존재한다.
빅데이터라는 거대한 문제를 해결하는 방안을 먼저 제시하는 방식이 아닌 문제의 특성을 먼저 정의하고 이를 해결하기 위한 여러 가지 방법들이 제시되고 지금 이 순간에도 발전하고 있다.
그렇다면 이러한 빅데이터 문제를 해결하기 위해 어떤 기술적인 방법이 사용될 수 있을까? 구글 검색통계를 이용하여 ‘Big Data’를 검색해보면 빅데이터 관련 인기 검색어 목록을 볼 수 있다. 여기에 ‘Hadoop’이라는 기술이 등장한다.
현재 빅데이터를 처리하는 기술 중 가장 현실적인 대안이며 뜨거운 관심을 받고 있는 것이 더그커팅이 만든 하둡(Hadoop)이다. 하둡은 구글의 GFS, MapReduce 시스템에서 시작된 오픈소스프로젝트이며 하둡분산파일시스템과 맵리듀스프레임워크 두 가지 코어 컴포넌트 이외에 빅데이터를 처리하기 위한 다양한 생태계가 구축되어 있다.
그림1 구글 검색통계 Big Data 관련 인기 검색어(2012.8.28 기준)
그림2 빅데이터 관리 사이클
빅데이터 관리 방안
빅데이터 관리 단계는 전통적인 데이터의 처리와 유사하게 Acquire, Organize, Analyze, Decide 4단계로 나누어 볼 수 있다.
Step 1. Acquire :
가장 많이 사용하고 있는 빅데이터 기술(Hadoop, NoSQL)을 이용하여 다양한 종류의 데이터를 비용 효율적으로 저장
빅데이터 관리의 첫 단계는 저장이다. 나중에 분석요건이 생겨 작업을 하고 싶어도 과거 데이터를 보유하고 있지 않다면 충분한 데이터가 축적될 때까지 기다려야 한다.
현재 대부분의 기업들은 중요하다고 생각하고 업무에 꼭 필요한 데이터 우선으로 기업 데이터를 자산화 하고 있다. 대부분의 기업들이 로그성데이터를 저장하지 않고 버리거나 매우 짧은 기간 동안만을 유지하고 있다.
빅데이터 활용에 성공한 해외의 기업들은 로그성 데이터를 축적한 후 이를 분석하고 업무에 적용하여 수익을 창출하고 있다. 이베이 같은 경우 로그데이터를 분석하여 운영하고 있는 사이트 내 기능의 배치를 꾸준히 보완하고 있으며 이러한 변경을 통해 수익을 창출하고 있다.
기술적 관점에서 빅데이터 저장을 위해서는 일반적으로 분산파일시스템(배치처리 목적) 혹은 NoSQL(실시간 처리 목적)을 이용하여 저장한다. 분산파일시스템에는 여러 가지 종류가 있지만 현재 가장 널리 사용되고 있는 분산파일시스템은 하둡분산파일시스템(HDFS)이다.
현재 하둡의 창시자인 더그커팅이 참여하고 있는 Cloudera의 배포판이 가장 많은 사이트와 사용자를 보유하고 있다.
Step 2. Organize :
빠른 시간 안에 비용효율적인 빅데이터 처리, 기존 기간계, 정보계 인프라와의 연계
Organize단계는 하둡분산파일시스템 혹은 NoSQL에 저장된 데이터를 처리하고 기존에 기업에서 구축한 기간계(OLTP), 정보계(DW) 시스템과 연계하는 과정을 의미한다. 또한 저장된 데이터에 대한 본격적인 활용단계를 의미한다. Organize단계에서 빅데이터 처리에 활용되는 기술은 하둡의 MapReduce, Hive, Pig 등이다.
자바 기반의 MapReduce 프로그래밍은 자바언어 자체에 대한 지식 이외에도 하둡의 MapReduce 프레임워크와 같은 병렬처리에 대한 지식도 요구하며 작성 및 유지관리가 어렵다는 단점이 있다. 이러한 점을 해결하기 위해 Yahoo에서는 Pig를, FaceBook에서는 Hive를 만들었으며 하둡 생태계에서 빼놓을 수 없는 중요한 기능을 담당하고 있다.
Pig와 Hive를 조합하여 Pig에서 수집된 데이터의 전처리를 담당하고 SQL 유사한 방식을 사용하여 처리 및 분석을 진행한다면 효율적인 빅데이터 처리를 수행할 수 있다.
빅데이터를 처리한 후 활용하기 위해서는 기존 BI와의 연계가 필수적으로 요구된다. 이미 투자되어 있는 BI 시스템을 재사용하고 이미 조직구성원들이 사용 경험이 있는 시스템과 연계하여 빅데이터 활용을 전사적으로 확산시킬 수 있는 방법이다.
빅데이터 처리 결과를 기존 데이터베이스 시스템과 상호연계하기 위한 다양한 방법이 존재하며 Oracle에서는 Big Data Connectors를 통해 연계방안을 제공한다.
그림3 R 시각화 사용 예
Step 3. Analyze :
집계부터 통계분석까지 다양한 수준의 분석 기능 수행
Pig나 Hive를 통해서 일부 분석 작업을 수행할 수도 있으며, 복잡한 통계적인 분석 작업의 경우 최근 가장 각광받고 있는 방법이 오픈소스 통계 소프트웨어인 R이다. R은 1994년 SAS, SPSS와 같은 사용 통계 소프트웨어의 대안으로 시작되어 최근에는 통계분야에서 일반화된 툴로서 인식되고 있다.
3,800여 개가 넘는 다양한 통계 패키지 등을 무료로 제공하고 있으며, 상용 통계 프로그램에서도 R과의 연계 기능을 제공하기도 한다. 최신의 통계 기법들은 기존 상용 통계분석프로그램에는 적용되어 있지 않기 때문이다. 또한 R은 상당한 수준의 시각화 기능을 제공하고 있어 빅데이터 시각화에 훌륭한 대안을 제시하고 있다.
기존 오프소스 R이 가진 자원 활용의 단점(멀티코어 문제, 메모리 제약 사항 등)을 극복하기 위한 다양한 대안들(Bigmemory, Biganalytics, Rhadoop)이 최근 소개되고 있으며, R 자체도 버전이 올라가면서 일부 함수들이 멀티코어를 지원하고 있기에 향후 지속적인 발전이 예상된다.
Oracle의 경우 Advanced Analytics 옵션의 ORE(Oracle R Enterprise)를 통해 데이터베이스 서버의 성능 및 Oracle 데이터베이스의 병렬처리기능을 R이 이용할 수 있도록 하여 기존 R의 한계를 뛰어넘는 방안을 제시하고 있다. 데이터 이관이 필요 없기 때문에 DB의 강력한 보안기능을 제공받을 수 있어 최근 주목받고 있는 데이터 보안에 대한 대안을 제시한다.
Step 4. Decide :
메인 메모리 기반 아키텍쳐 및 검색 기반의 BI로의 전환
기업에서 의사결정 시 빅데이터를 활용하기 위해서는 Organize단계에서 생성된 빅데이터의 결과, Analyze단계에서의 분석 결과 등을 기존 시스템에 존재하는 데이터와 결합해야 한다. 개별적으로 존재하는 데이터 분석보다는 전사적 관점에서 데이터의 의미를 파악해야 빅데이터의 가치를 극대화할 수 있다.
조직 내에서 빠른 분석 기반의 의사결정 제공을 위해서 메인 메모리 기반의 BI 제품(Oracle Exalytics)들이 시장에 출시되고 있다. 이러한 제품들은 데이터를 메인메모리에 저장한 후 사용자가 조건을 입력 혹은 변경하는 순간 데이터를 이미 화면에 표시하는 기능을 제공하여 생각의 속도로 분석할 수 있도록 한다.
Questions you know you have to ask vs Questions you don’t yet know
전통적인 BI와 빅데이터 시대의 BI의 가장 큰 차이점은 예전에는 BI를 통해 무엇을 질문해야 하는지 알고 있었지만 빅데이터 시대에는 무엇을 질문해야 하는지 모르는 상태에서 질문을 수행할 수 있어야 한다는 점이다.
마치 우리가 구글이나 네이버와 같은 검색엔진을 사용하듯이 사용자는 어떤 데이터가 있는지 모르는 상황에서 쉽고 빠르게 검색을 수행할 수 있어야 한다. 오라클은 Endeca를 통해 이를 지원하고 있다.
그림4 빅데이터 비즈니스 관련 사업자 유형
빅데이터 활용 시 고려 사항
지난 2011년 하반기부터 전 세계 IT에 불어닥친 빅데이터에 대한 많은 기대와 관심은 국내 기업에게도 좋은 기회가 될 것으로 기대된다.
빅데이터 비즈니스와 관련하여 세 가지의 사업자 유형이 존재하며 대부분의 일반 기업은 빅데이터를 활용하여 현 비즈니스의 부가가치 증대 및 효율화를 원하는 이용사업자에 속한다.
기업 보유 데이터 및 보유 가능 데이터에 대한 평가 우선 수행, 기술평가는 최종단계에서 수행
국내 기업에서 빅데이터 기반의 신성장동력을 발굴하기 위해서는 우선 현재 가지고 있는 데이터를 활용할 수 있는 방안을 찾아야 한다. 기업들을 방문하여 빅데이터 관련 컨설팅을 진행하다보면 가장 중요하다고 생각되는 사항이 기업 내 존재하는 데이터에 대한 평가이다.
보유하고 있는 데이터에 대한 정확한 평가 및 내부에서 수집 가능한 데이터를 파악해야 다음 단계인 외부 데이터(SNS, 공공정보 등)와의 연계 및 활용방안을 검토할 수 있으며 기업의 빅데이터 활용전략을 수립할 수 있다.
내부 데이터의 활용가치를 빅데이터 관점에서 평가할 때 다음의 질문을 기준으로 빅데이터 활용 가능성 및 적용 기술을 검토할 수 있다.
• 현재 데이터베이스에 자산화 되지 않은 데이터 중 의사결정에 참고하는 데이터가 있는가? 있다면 왜 자산화 하지 않고 있
는가?
• 서비스 하고 있는 데이터 중 비용효율 문제로 제한된 기간에만 저장 및 서비스 하고 있는 업무가 있는가?
• 기존 업무 중 대량의 비정형 데이터를 대상으로 검색해야 하는 업무(예: 로그 대상 감사 업무)가 있는가?
• 내부 데이터 중에서 외부 데이터와 연계 시 추가적인 가치를 가지는 것이 있는가?
• 개별 요건들을 전사 관점에서 통합할 수 있는 항목이 존재하는가?
• 이러한 업무들이 우리 조직의 예산범위에서 기존 기술(DBMS, BI)·구현 및 개선이 가능한가? 가능하지 않다면 기술적 대안은 어떤 것이 있는가?
빅데이터 활용 데이터 및 업무를 도출할 경우 기술적인 검토는 마지막에 하는 것이 효과적이다. 기술적인 검토를 데이터 및 업무도출과 병행하여 수행하는 경우 최종 후보 항목의 수가 적어지고 이는 전사적 관점에서 각 업무 혹은 데이터를 융합하여 활용할 수 있는 기회를 상실하게 하는 이유가 될 수 있다.
비록 해당요건이 기간계/정보계시스템 구축에 해당되는 내용일지라도 전사적 관점 혹은 다른 종류의 데이터와의 연계를 통해 빅데이터로서의 가치를 가질 수도 있다. 마지막 단계에서 기술 검토를 통해 최종 도출된 사항들이 기업의 예산범위 안에서 기존 기술로 구현 및 개선이 가능하지 않다고 판단되는 경우에 빅데이터 기술 도입을 검토해야 한다.
빅데이터 기술 기반의 솔루션 개발
빅데이터를 기업의 신성장동력으로 활용하는 또 하나의 방법은 기업이 보유하고 있는 솔루션을 업무 특성을 고려하여 빅데이터 기반 기술(하둡)로 전환하는 것이다.
솔루션에서 저장하고 처리해야 하는 데이터는 해마다 폭발적으로 증가하고 있고 이를 빅데이터 기반 기술을 지원하게 전환한다면 다른 기업이 보유한 동일 솔루션에 비해 비용효율 및 성능이라는 경쟁력을 갖출 수 있게 된다.
예를 들어 보안솔루션을 가지고 있는 기업이라면 보안로그를 수집하고 분석하는 과정을 하둡의 Flume→[HDFS or HBase]→Pig&Hive→R과 같은 과정을 걸쳐 수행할 수 있도록 하여 변화하는 IT 환경에 대응해야 한다.
빅데이터 적용을 위한 기업의 준비사항
기업 내에서 빅데이터 활용을 위해 다음의 세 가지 단계를 제안한다.
첫 번째는 지속가능한 운영 인프라 구축이다. 빅데이터 시스템은 단순히 하둡 배포판을 다운로드하고 설치하는데서 완성되지 않는다. 적합한 하드웨어 및 하드웨어와 하둡배포판을 최적화하여 구성해야 솔루션의 성능 최적화 및 운영환경으로 이관 시 안정적인 서비스 품질을 제공할 수 있다.
국내에서 운영 서비스 수준의 인프라 구축이 가능한 인력이 매우 적은 것이 현실이다. 따라서 인프라를 구축하는데 시간과 노력을 들이기보다는 기존에 이러한 서비스를 제공하는 회사를 통해 인프라 구성을 한 후 서비스를 제공하는 것이 비용 효율적인 대안이 될 수 있다.
두 번째는 전담 조직 구성이다. 현재 대부분의 기업은 기업 내외의 데이터가 조직별로 분산되어 빅데이터의 효율적 운용이 어렵다. 데이터 접근성, 인프라 구축, 분석 역량 등을 뒷받침할 수 있는 Data 중심의 조직이 필요하다. 기업 내부에 축적된 데이터를 활용하는 경우에도 법적인 책임 관련하여 사전에 검토하는 것이 반드시 필요하다.
세 번째는 경험 기반의 의사결정 문화에서 데이터 기반의 의사결정으로의 전환이다. 데이터 분석을 통해 얻은 지식이 실제 경험적 지식과 다른 경우 이를 업무에 적용하는 것은 매우 어려운 일이나 작은 것부터 점진적으로 시도해볼 충분한 가치가 있다.
아마존의 경우와 같이 데이터를 버리지 않고 활용하는 기업문화를 가진 기업은 자신의 비즈니스를 확장할 수 있을 뿐 아니라 IT 자체를 선도하여 전혀 새로운 시장을 만들어낼 수도 있다.
삼성경제연구소에 따르면 현재 국내에는 빅데이터 역량 선순환에 장애요인이 존재하며 이를 극복하기 위해 최고 경영진의 적극 지원을 비롯한 다양한 실천과제들이 있다. 여기에 중장기 과제로 꾸준히 추진해야 하는 항목이 데이터 기반의 의사결정 문화이다.
그림5 Big Data 시대 준비사항
그림6 기업의 빅데이터 역량 강화를 위한 실천과제
맺음말
빅데이터에 대한 활용사례들이 국내에서도 일부 포탈 회사 및 통신사를 시작으로 발표되기 시작하였으나 아직까지는 많은 개발자나 운영자 특히 IT 기획자들에게 생소한 분야인 것이 분명한 현실이다.
IT에 있어 변화는 빠르게 다가오지만 이러한 변화에 대응하기 위한 준비는 상대적으로 오랜 기간이 소요된다. 변화에 대응하지 못하는 기업은 뒤쳐지거나 살아남지 못한다는 것이 그동안의 역사적 교훈이다.
빅데이터를 이용하면 비즈니스 수익에 도움이 된다는 데는 많은 사람들이 동의하고 있다. 하지만 기업에서 빅데이터를 체화하기 위해서는 일정기간 투자가 필요하다. CXO 수준에서의 적극적 지원이 필요한 대목이다.
빅데이터 프로젝트 수행 시 가장 부족한 부분으로 지적되는 기술인력 수급에 대한 문제는 다행히 올해부터 하둡과 관련된 많은 교육과정들, 다양한 IT 벤더의 지원체계 구축을 통해 해결되고 있다.
이러한 IT 환경 및 교육과정들을 잘 활용하여 빅데이터 비즈니스 활용방안 기획자, 빅데이터 기반 기술 엔지니어 등을 육성한다면 2012년을 기점으로 기업의 신성장동력을 발굴하고 기업과 조직원의 가치를 제고할 수 있는 또 하나의 중요한 비즈니스 터닝 포인트가 될 것이다.