혁신 아카데미 - 축적된 연구 데이터 탐색적 활용법
혁신 아카데미는 혁신의 주요 이론과 개념을 소개하고 실제와 연계한 칼럼입니다.
▲ 임채익 대표 컨설턴트 씨앤아이컨설팅
21세기 지식정보화 사회에서는 새로운 지식을 습득하는 것이 경쟁력의 원천이다.
특히 다양한 시스템 내에 존재하는 많은 양의 데이터로부터 유용한 지식을 획득하는 것이 중요한 추세로 나타나고 있다.
최근 빅데이터 분석이나 머신러닝 등과 같이 다량의 데이터를 분석하여 이를 활용하고자 하는 활동이 큰 주목을 받고 있는 것이 바로 이런 경향을 대변한다.
이들 접근법은 과거에 일어났거나 현재에 일어나고 있는 현상에 기초를 둔 지식을 습득하는 일이기 때문에 그 가치가 크다.
직관이나 가설에 바탕을 두는 것이 아니라 사실에 기초하여 현재를 이해할 뿐만 아니라 미래에 대한 예측을 하기 때문인데 이런 노력들은 향후 더욱 중요한 분야로 자리 잡아 발전할 것이다.
최근 이러한 추세가 가속화되는 이유는 자료를 효율적으로 저장하는 데이터베이스, 압축, 통신 등의 기술이 발달하여 데이터의 양이 급속히 팽창함에 있다.
다양하게 구비된 시스템 내에 축적된 데이터를 어떻게 활용할 것인가 하는 점은 사회 전반적인 중요 이슈가 되고 있다.
특히 컴퓨터 성능의 향상과 더불어 거대한 데이터의 실시간 분석이 가능해짐에 따라 이전에는 어려웠던 대용량 데이터를 분석하여 새로운 지식을 발견할 가능성이 한층 높아졌기 때문에 이런 연구는 더욱 빠른 속도로 발전해 나갈 것이다.
축적된 데이터를 분석하여 새로운 지식을 발견하고자 하는 과정을 데이터 마이닝이라 한다.
보다 구체적으로 말하면 “대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 모형화함으로써 유용한 지식을 추출하는 일련의 과정들”로 정의한다.
대용량 데이터는 많은 변수들이 작용하기 때문에 관계, 패턴, 규칙이 쉽게 드러나지 않는 특징이 있다.
통계적 분석방법이 동원되어야 직관적으로 쉽게 확인되지 않는 규칙성이 드러나게 된다.
통계적인 관점에서는 이런 접근 방법을 대용량 데이터에 대한 탐색적 데이터 분석(Exploratory Data Analysis)이라 한다.
데이터 마이닝은 다양한 분야에 적용되어 발전하고 있다.
공학 분야뿐만 아니라 비공학 분야에서도 데이터를 활용하고자 하는 노력들이 나타나고 있고 좋은 성과로 연결되는 사례들이 보고되고 있다.
예를 들면 고객 정보 분석을 통한 마케팅 전략을 구축하는 영역, 신용평가(Credit Scoring)의 영역, 통계적 품질관리(SPC, Statistical Process Control)의 영역, 텍스트 마이닝(Text Mining)의 영역 등에서 좋은 사례가 알려지고 있다.
이 글에서는 응용 가능한 여러 영역 중 연구개발 분야에서 축적되는 연구 데이터를 탐색적으로 분석하여 활용하는 연구 데이터 마이닝에 한정하여 논하고자 한다.
연구개발 분야는 데이터를 통해 결과를 제시하고 검증을 받는 과정을 거치므로 데이터의 활용이 아주 발달되어 있거나 세련된 방법이 사용되고 있을 것이라는 기대를 한다.
그러나 안타깝게도 그렇지 못한 경우가 현실에서는 더 자주 발견된다.
연구개발 분야의 데이터 활용에는 어떤 문제들이 있고 이를 극복할 수 있는 방안은 무엇인지 초점을 맞추어 논하기로 한다.
신제품과 신기술을 다루는 연구개발 분야에서도 고객의 요구 사항이 늘어나고 복잡해지고 있다.
이에 따라 새로운 연구 아이템은 지속적으로 발생하고 있으며 관리해야 할 항목도 급격히 증가하고 있다.
실험은 더 복잡해지고 있으며 실험 데이터는 더욱 방대해지고 있다.
이런 상황임에도 불구하고 연구개발 활동은 창의성과 자율성을 강조하기 때문에 연구원 개인의 역량과 노력에 의존하여 진행된다.
자유롭게 창의성을 발휘할 수 있는 긍정적인 측면이 있으나 연구 내용이 제대로 기록되지 않거나 관리가 되지 않는 사각지대가 발생하는 부정적인 측면도 강하게 나타난다.
부정적인 측면의 가장 중요한 문제점 중의 하나가 연구원 개인의 연구노트나 PC 내에 연구 데이터가 기록되고 보관된다는 점이다.
기록되지 않은 데이터가 많을 수밖에 없는 환경에 놓여 있는 것이다.
특히 담당 연구원이 부서를 이동하거나 이직하는 경우에는 연구 정보가 유실되거나 단절되는 일이 빈번하게 발생한다.
또한 기록이 된다 하더라도 데이터가 분산되고 파편화되어 체계적인 관리가 되지 않으므로 활용하기가 어려운 상태이다.
데이터가 통합적으로 관리되지 않으면 기존 연구 데이터의 활용이 미흡할 수밖에 없다.
이전 실험의 결과를 쉽게 검색하여 확인할 수 없으므로 과거에 수행했던 유사 실험이나 동일한 실험을 불필요하게 중복 실험하는 일이 자주 나타난다.
연구 데이터의 통합 관리 체계가 구축되어 쉽게 검색하고 결과를 확인할 수 있는 관리체계가 우선 구축되어야 데이터의 활용력이 크게 향상될 수 있다.
이런 시스템적인 데이터 공유가 미흡하기 때문에 기존 연구 정보를 탐색하는 시도가 부족한 상황이다.
또한 파편화되어 있는 기존 연구정보를 이용하고자 하는 경우에는 시간과 노력이 지나치게 많이 필요하므로 정리되어 발표된 외부 문헌에 의존하는 경향이 나타나게 된다.
가치 있는 내부 자료가 있음에도 불구하고 활용할 기회를 놓치는 일은 필히 개선되어야 할 연구관리의 방식이다.
데이터를 통합적으로 관리하는 경우에는 다양한 분석방법들을 활용할 수 있는데 통계적인 분석 도구들이 큰 도움이 된다.
파편적인 데이터 상태에서는 쉽게 보이지 않는 패턴이나 규칙을 데이터가 축적되어 그 수가 증가하는 경우 보다 분명하게 보이도록 하는 통계적 기법들이 개발되어 있다.
연구개발에서 다루는 복잡한 현상에 대해 단순한 방법을 동원하여 분석하는 경우 현상이 명쾌하게 보이지 않으므로 이런 분석 기법을 잘 활용하는 것이 중요하다.
특히 여러 변수가 하나의 현상에 동시에 작용하는 경우 각 변수들이 결과에 미치는 영향이 단순하지 않고 복잡한 양상을 나타낼 수 있다.
어떤 변수가 일으키는 변화가 기존의 경험과 일치하지 않거나 이전 실험에서 고찰한 결과와 일관성이 없는 것으로 나타나는 일들이 종종 발생한다.
이런 복잡한 현상을 데이터로 이해할 때 주목해야 할 점이 교호작용이다.
교호작용은 한 변수의 영향도가 다른 변수의 조건에 따라 다르게 나타나는 현상을 의미한다.
2개 이상의 변수를 동시에 다루는 실험을 하는 경우에는 각 변수들이 어떤 작용을 하는가를 밝히는 것도 중요하지만 그 변수들의 조건이 조합되어 발생하는 추가적인 효과가 무엇인가를 규명하는 작업이 중요할 때가 있다.
관심을 가지는 여러 변수들의 적절한 조건 조합을 찾아야 원하는 결과를 만들어 낼 수 있는 상황이 빈번하게 발생하기 때문이다.
교호작용에 의한 이런 변화 현상은 직관적으로 파악이 잘 되지 않기 때문에 데이터 분석을 통해 객관적으로 파악하는 것이 필요하다.
수율을 향상시키기 위한 실험을 진행한 표 1을 살펴보자.
수율에 영향을 미치는 요인으로 속도, 시간, 온도를 선정하고 실험을 진행하고 있다.
다양한 조건에서 실험이 진행되었고 현재까지 확인된 수율의 최댓값은 86.8%이다.
그 이후에 더 높은 수율을 나타내는 조건이 발견되지 않고 있는 상황인데 현재까지 확인된 86.8%가 이 3개 변수를 조절하여 만들어 낼 수 있는 수율의 한계치라고 할 수 있겠는가?
아니면 아직 확인하지 않은 조건에서 더 높은 수율을 만들어 낼 수 있는 조건이 숨겨져 있는 것인가?
그림 1은 3개 변수 각각이 수율에 어떤 영향을 미치는가를 분석한 결과인데 각 변수의 최적 조건이 무엇인지 명확한 결론을 내리기 어려운 상태로 보인다.
이는 3개 변수가 동시에 변화되는 실험 결과를 각 변수들의 독립적인 영향으로 파악하려는 단순한 분석을 시도하기 때문이다.
예를 들어 속도의 영향을 파악하고자 할 때 시간과 온도가 고정된 상태로 실험된 것이 아니므로 두 변수의 영향이 동시에 나타나서 속도 변수의 영향을 독립적으로 파악하는 데 방해를 받기 때문이다.
따라서 여러 변수가 동시에 작용하고 있는 결과에 대한 분석은 통계적 분석 기법 중 다중회귀분석법을 이용해야 각 변수 고유의 영향을 분리해서 파악할 수 있다.
이때, 또 하나 고려해야 할 사항은 3개 변수의 독립적인 영향뿐만 아니라 변수 조건의 조합에 의해 발생하는 교호작용도 분석할 수 있어야 한다는 것이다.
이를 위해 데이터 마이닝에서는 2차 다항 모델을 기초로 회귀분석을 수행하는 반응표면분석을 적용하기를 권장한다.
이 분석에 의해서는 각 변수들의 개별적인 영향이 보다 명확히 파악되고 변수들의 교호작용이 발생하는 경우 이에 대한 파악도 쉽게 할 수 있다.
수율 최대화를 위한 위의 실험 결과를 반응표면분석으로 분석한 예를 그림 2~5에 제시하였다.
그림 2를 통해서 속도는 선형적인 변화를 나타내고 시간과 온도는 비선형적인 변화를 일으킴을 확인할 수 있다.
그림 3의 교호작용도를 통해서 온도의 최적 조건이 속도 조건에 따라 변화됨을 확인할 수 있다.
이런 특성을 복합적으로 고려하면 그림 4에서와 같이 90이상의 수율을 확보할 수 있는 시간과 온도 조건의 영역이 형성됨을 확인할 수 있는데, 그림 5에서 3차 표면도를 통해 이를 보다 명확히 확인할 수 있다.
이와 같이 반응표면분석법을 통한 기존 데이터 분석을 통해 실험적으로 확인된 최대 수율 86.8%보다 높은 수율을 나타낼 수 있는 조건이 존재함을 확인할 수 있다.
그림 6은 최적 조건을 탐색하는 반응 최적화를 통해 최적 조건을 탐색한 것인데, 수율의 최대 수준이 90.6%으로 예측됨을 알 수 있다.
이 최적 조건에서 예상 결과가 재현된다면 기존 실험 결과 분석을 통해 돌파구를 마련한 것이다.
연구개발 분야에서도 모든 실험을 체계적으로 실험계획법을 적용하여 진행할 수 없다.
가능성 검토를 위해 단발적인 실험을 진행하는 경우도 많고 가능성 검증이 실패하는 경우 콘셉트를 바꾸는 일들도 빈번하게 발생하기 때문이다.
이때 어느 정도의 실험이 진행된 경우라면 축적된 데이터를 체계적으로 분석해 보는 것이 필요하다.
직관적으로 파악되지 않는 현상이 데이터 분석을 통해 보일 때가 있기 때문이다.
연구 데이터의 체계적 마이닝을 통해 실험 결과를 모델링할 수 있다면 추가 연구의 방향성을 확인할 수 있고 목표 달성 가능성을 쉽게 탐색할 수 있다.
궁극적으로는 축적한 연구 데이터를 효과적으로 분석함으로써 불필요한 실험을 최소화하고 연구개발이 보다 효율적으로 진행될 수 있을 것이다.