혁신 아카데미 - 연구개발자가 꼭 알아야 할 기초통계/데이터 분석
혁신 아카데미는 혁신의 주요 이론과 개념을 소개하고 실제와 연계한 칼럼입니다.
▲ 이장욱 수석컨설턴트 씨앤아이컨설팅
기업에서 연구개발을 담당하는 연구원, 개발인력, 엔지니어들(이하 통칭하여 연구원)에게 물어보면 열에 여덟아홉은 업무에 통계를 활용해야 할 필요가 있고, 공부해야 한다고 생각한다.
그러나 현실적으로 시간을 내거나 독학을 하는 것은 쉽지 않기 때문에 통계는 어렵다고 생각한다.
도대체 통계의 정체가 무엇이길래 대다수의 연구원들이 필요하다고 인식은 하지만 쉽게 어쩌지는 못하는 것일까?
그리고 왜 통계를 연구개발에 활용해야 하는 것일까?
결론부터 말해서 연구원에게 통계의 정체를 가장 쉽게 정의하면 ‘데이터로 말하는 법’이고 ‘데이터가 말해주는 바를 듣는 방법’이다.
숫자 즉, 데이터로 표현할 수 없다면 어떤 현상을 객관적으로 말할 수 있는 방법이 없다.
연구원들이 통계를 배우고 활용한다는 것은 어떤 현상을 객관적으로 이해하고 표현할 수 있는 중요한 의사소통의 도구를 배우는 것과 마찬가지이다.
아래 두 개의 예시 상황을 통해 데이터로 의사소통을 하는 데 있어 통계의 역할이 무엇인지, 왜 필요한지를 간단히 살펴보자.
연구원이 개발한 어떤 제품의 성능이 10이라는 목푯값을 달성한 것인지를 확인하기 위해 3회 반복 실험을 통해 다음과 같은 숫자를 얻었다.
위와 같이 3개 숫자의 나열만으로는 목푯값 10을 달성한 것인지 애매하다.
데이터의 나열은 어떤 현상을 표현하기에 거추장스럽고 불분명하기 때문에 우리는 평균을 구한다.
‘평균’이라는 통계가 등장을 한다.
조금 더 앞서가면 ‘표준편차’ 1.6까지 구한다.
평균이라는 ‘대푯값’으로 보았을 때 목푯값 10에 거의 근접했으므로 좋은 결과를 얻은 것이라 할 수 있을까?
표준 편차까지 감안하더라도 좋은 결과인가?
우선 좋고 나쁨을 판단하기 이전에 ‘평균’이라는 대푯값과 대푯값을 중심으로 각 개별 데이터들이 얼마나 멀리까지 떨어져서 나타나는가를 ‘표준편차’라는 한 개의 값으로 표현하였다.
방금 우리는 통계를 활용하여 숫자들의 나열인 데이터를 보기 좋은 형태의 ‘정보’로 바꾸어 놓은 것이다.
이 정보들을 도대체 왜 얻으려는 것일까?
숫자들의 나열인 데이터를 정보로 바꾸는 것은 데이터가 의미하는 바를 쉽게 이해하려는 목적도 있지만 그보다 더 궁극적인 정보화의 목적은 ‘의사결정(판단)’을 하기 위함이다(그림 1).
예를 들어 계속 이 방법으로 실험을 해야 하는지?
방법을 바꾸어야 하는지?
최적 조건을 찾은 것인지?
현재의 조건으로 양산을 해도 되는지?
이 정도 데이터가 나온다면 설비를 구입해도 되겠는지?
등 목적하는 바에 대한 판단을 하기 위해 데이터를 얻고 정보로 변환을 하는 것이다.
문제는 우리가 현실 세계에서 얻게 되는 데이터들은 표본이 만들어지는 과정과 측정하는 과정에서 각각 오차가 개입함으로써 그 자체로 불확실성을 가진 데이터를 얻게 된다.
뿐만 아니라 연구원이 실험실에서 얻을 수 있는 데이터의 개수는 매우 제한적이기 때문에 불확실성이 더 높아진다.
중요한 의사결정을 하기 위해 3번의 반복 실험을 해 본 것과 30번이나 300번쯤 같은 실험을 해 본 것 중 어느 쪽이 더 자신 있게 결정할 수 있을지는 쉽게 판단할 수 있을 것이다.
우리가 가진 3개의 데이터는 표본이라고 한다.
말 그대로 표본은 전체를 미루어 짐작할 수 있는 견본에 해당한다.
표본은 전체 모집단이 아니기 때문에 우연히 선택된 표본에 따라 전체를 잘못 이해하는 오류가 생길 수 있다.
연구원이 궁극적으로 알고자 하는 것은 모집단의 특성임에도 불구하고 우리는 소수의 표본 데이터를 너무 쉽게 일반화시켜 믿어 버리는 경향이 있다(그림 2).
불확실성을 감안하여 의사결정을 내릴 때 단지 표본 수준에서가 아니라 가능하면 모집단의 관점에서 의사결정을 하는 것을 ‘통계적 의사결정’이라 한다.
통계는 소수의 데이터가 가지는 불확실성을 가능한 낮추고 진실에 가까운 정보를 얻을 수 있도록 도와준다.
연구원들이 통계를 알아야 하는 가장 큰 이유이다.
한 가지만 더 예를 들어보면, A 연구원이 새로운 제품을 설계하여 테스트를 해보니 다음과 같은 데이터를 얻었다.
기존 제품보다 높은 값이 나오는 것이 좋은데 기존 제품 데이터는 18, 14, 20, 15이고, 새로 설계한 제품은 23, 23, 18, 15가 나왔다면 A 연구원은 어떻게 판단을 해야 할까?
일단 평균을 구해보면 그림 3에서 보듯이 기존은 16.75이고, 신규는 19.75이다.
이제 A 연구원은 그림 3의 결과를 보고 신제품이 기존 제품보다 더 우수하다고 쉽사리 결론을 내려도 괜찮은가?
결론을 내리기 위해서는 제품이 무엇인지, 수치가 의미하는 바가 무엇인지, 저 정도의 차이면 의미 있는 개선인지 등 고려해야 할 바가 많겠지만 우선은 값만 보고 결정을 한다면 평균값이 더 높은 신규를 택할 가능성이 크다.
하지만 우리는 방금 전에 표본과 모집단의 개념을 살펴보았다.
저 두 데이터가 표본에서는 차이가 있어 보이지만 실은 한 모집단에서 우연히 추출된 두 개의 표본일지 두 개의 서로 다른 모집단일지는 통계분석이라는 도구를 활용해서 좀 더 들여다보아야 한다는 사실을 직감적으로 알 수 있다(그림 4).
이 데이터를 평균의 유의차 검정을 해보면 통계적 결론은 ‘평균의 유의적 차이가 있다고 할 수 없다’이다. 차이가 있다는 것인지 없다는 것인지 다소 말이 복잡하다.
쉽게 말해서 ‘평균의 차이가 없다’이다.
평균이 기존 16.75와 신규 19.75로 무려 3만큼 차이가 나지만 현재 가지고 있는 데이터만 비교해서는 이 정도의 차이를 차이라고 보기 어렵다는 결론이다. 이와 같은 통계적 분석방법을 가설검정이라고 한다.
모집단의 관점에서 차이가 없는 것을 신제품의 성능이 더 좋아진 것이라고 잘못 판단하게 되면 극단적으로 그 신제품의 양산을 결정한 회사나 신제품의 성능이 향상되었을 것이라 믿고 구입한 소비자나 모두 피해를 보게 되지 않겠는가?
소수의 표본 데이터만을 직접 비교하여 판단하는 것이 아니라 가설검정이라는 방법을 통해 이와 같은 위험(Risk)을 관리할 수 있게 된다.
이상의 사례를 통해서 연구개발 과정에서 통계의 역할이 무엇인지, 왜 필요한지에 대해 간단하게나마 알아보았다.
실제 연구개발이나 생산 현장에서는 이보다 더 복잡하고 다양한 상황들이 존재한다.
통계가 이 모든 상황들을 정리하고 해결해 주는 마법의 상자는 아니지만 적어도 데이터 분석을 통해 해결의 실마리를 제공하고, 리스크를 낮추어주고 나아가서는 결과에 대한 검증까지 도움을 주는 것은 분명하다.
특히 극한의 품질 수준을 놓고 경쟁하는 글로벌 경쟁시대에 통계의 도움은 선택이 아닌 필수라는 것을 이젠 많은 기업들에서 공감하고 있다.
여기서 한 가지 의문이 생긴다.
통계가 데이터를 잘 분석하여 해결의 실마리를 찾고 리스크를 낮추고, 합리적인 의사결정을 도와준다는 것은 동의할 수 있겠지만 위의 사례에서와 같이 이미 나온 데이터를 분석하는 것은 왠지 수동적인 느낌이다.
이것이 최선일까? 처음부터 더 나은 결과를 찾기 위한 방법은 없을까? 대답은 더 능동적인 통계적 방법이 있다는 것이다.
우리가 원하는 결과 데이터를 얻기 위해 결과에 영향을 주는 여러 가지 요인들에 의도적인 변화를 주는것을 실험이라고 한다.
실험을 일정한 규칙에 따라 계획하고 결과 데이터와 함께 분석함으로써 ‘실험은 적게 결과는 최선으로’ 찾아가는 능동적인 방법을 실험계획법(DOE, Design Of Experiments)이라고 한다.
DOE에 대해서는 다음 호에 소개하기로 한다.
처음의 질문으로 돌아가면 왜 연구원들은 통계를 어려워할까?
위에서 계속 통계를 도구에 비유했지만 사실 통계는 통계학이라는 학문을 의미하는 것이기 때문에 연구원 입장에서는 자신의 전공 이외에 또 다른 전공을 대하는 것과 마찬가지이다.
시중에 나와 있는 통계학 관련 서적을 들여다보면 일단 기가 죽는다.
그렇다고 어디에 가서 통계학 강의를 들을 곳도 마땅치 않다.
설사 수업을 들었다 하더라도 내 업무에 활용해 보려니 막막하다.
이런 것이 대다수 연구원들이 공통적으로 느끼는 ‘통계’에 대한 복잡한 심경이다.
연구원이 통계를 학문인 ‘통계학’으로 접근하면 진땀을 빼기 십상이다.
‘통계’를 도구로 바라보자.
우리가 자동차의 작동원리를 이해하거나 설계도면을 볼 줄 모르지만 운전은 잘하고 다니는 것과 마찬가지로, 통계학의 높은 수준이 아니라 연구원이 꼭 알아야만 하는 기본적인 통계와 데이터 분석만 잘 사용하더라도 훌륭한 드라이버가 될 수 있다.