1990년 스탠퍼드대 심리학과에서 ‘두드리는 자와 듣는 자’라는 실험을 했다. 한 사람이 이어폰에 나오는 음악에 맞춰서 탁자를 두드리면, 다른 사람은 그 소리를 듣고 어떤 노래인지 맞추는 게임이다. ‘생일 축하합니다’처럼 쉬운 것만 틀어줬다. 120쌍에게 같은 실험을 되풀이했다. 결과는 어떻게 되었을까?
2.5%의 정답률로 매우 낮았다. 이 실험의 핵심은 다른 데 있다. 실험 전에 두드리는 사람에게 듣는 사람이 이 노래를 얼마나 맞출 것인지 예상해 보라고 했다. 50% 정도가 상대방이 노래를 맞출 거라고 예상했다. 2.5%와 50%, 너무 차이가 크다. 듣는 사람은 모스 부호 같은 ‘탁탁’ 소리만 듣고 음악을 맞춰야 한다. 이런 단순한 정보로는 아무리 쉬운 노래라도 맞추기가 매우 어렵다. 그러나 두드리는 사람은 이어폰으로 노래를 듣고 있으므로 가사, 멜로디, 리듬을 다 알고 있다. 이어폰에서 나오는 커다란 음악소리에 탁자를 두드리는 단순한 소리는 쉽게 묻혀버리고 만다. 두드리는 사람은 자기가 듣고 있는 노래의 선율이 듣는 사람에게도 어느 정도 전달되리라고 생각하게 된다. 상대방의 사정을 모르기 때문에 실제로는 3%에도 못 미치는 정답률을 50% 정도로 예측한 것이다. 이 실험은 정보나 지식이 많아지면 오히려 올바른 커뮤니케이션에 심각한 방해가 될 수 있음을 알려줬다. 그래서 이 현상을 ‘지식의 저주’라고 이름 붙였다. 지식의 저주를 없애기 위해서는 구성원들이 서로 간의 상황과 사정, 즉 컨텍스트를 공유해야 한다.
잘 되는 조직은 같은 언어를 쓴다
뛰어난 경영자는 조직 내 공유 컨텍스트를 만들어내려고 노력한다. 애플은 차별화된 제품에 대한 집착이 남다른데, 이는 창업자인 스티브 잡스가 의도적으로 일궈낸 것이다. 많이 알려진 일화가, 예전에 매킨토시를 개발할 때 엔지니어들을 데리고 다니면서 기괴한 짓을 했다. 워크숍을 가서 기존 질서에 굴복하지 말라고 풀장에서 나체로 수영을 하곤 했다. 또 수시로 직원들에게 연설을 한 후, 자기 생각을 담은 티셔츠를 만들어 입혔다. 거기에는 ‘여행 자체가 보상이다', ‘해군이 되느니 해적이 되는 게 낫다', ‘우주에 흔적을 남기자', ‘일주일 90시간 작업’ 등의 문구를 써넣었다. 이 모든 행동이 ‘남다른’ 제품과 서비스를 만들자는 철학을 모든 직원들이 공유하게 하기 위함이었다. 이런 노력은 계속 이어졌고 잡스 사후에도 지속됐다. 이처럼 잘 되는 기업은 조직이 커져도 구성원간 커뮤니케이션이 잘 된다. 독특한 문화를 기반으로 구성원들이 서로 공통의 언어를 쓰기 때문이다.
인공지능 도입에서도 마찬가지다. 현재 인공지능 기술은 빠르게 대중화되고 있다. 컴퓨터공학을 전공하지 않은 비전문가들도 자주 사용하는 상황으로 변하고 있다. 앞으로 부서마다 수십 개의 인공지능을 도입해서 쓰게 될 것이다. 자연스레 인공지능 기술에서 자주 쓰는 용어나 개념을 사용할 수밖에 없다. 이런 상황에서 인공지능 기술을 아는 사람과 그렇지 못한 사람 사이에서 커뮤니케이션이 단절될 가능성이 있다. 그렇게 되면 주요 의사결정이 지연되거나 더 심각한 경우는 인공지능 프로젝트가 전략 방향과 다르게 실행될 수도 있다. 따라서 인공지능 도입의 효과를 극대화하기 위해서는 조직 내 대부분의 구성원들이 인공지능 언어로 커뮤니케이션할 수 있어야 한다.
1990년대 미국의 GE를 세계 최고의 기업으로 만드는 데 일조했고, 2000년대 LG전자, 삼성SDI 등 국내 대기업에 도입돼 생산성 혁신을 가져온 6시그마 사례를 생각해 보자. 6시그마를 도입한 기업에서 이 기법의 용어가 조직에 정착됐을 때 비로소 성과가 나기 시작했다. 구성원 대부분이 6시그마의 공통 언어를 주고받으며 의미를 이해했고 커뮤니케이션이 간단해졌다. 표준 정규분포 수치인 Z값이 얼마라고 이야기하면 품질수준이 어떤지 알 수 있었고, 고객 의견에서 도출한 CTQ(Critical to Quality)가 무엇인지 말하면 문제를 해결하기 위해 중점적으로 개선해야 할 포인트가 뭔지 이해했다. 공통 언어를 쓰면서 컨텍스트를 공유하니까 대규모 조직에서도, 심지어 언어가 다른 해외 지사에서도 의사소통에 문제없이 빠른 실행이 가능했다.
인공지능 커뮤니케이션이 필요한 시대
인공지능 기술이 확산되면서 이처럼 커뮤니케이션 이슈가 점점 중요해질 것이다. 필자가 대표로 있는 알고리즘랩스에서 한 기관과 인공지능 솔루션 구축 프로젝트를 진행하던 중 겪었던 일이다. 제한된 양의 데이터를 가지고 1차 모델링을 한 후 중간보고를 했다. 학습 모델의 성능지표 중 정밀도(Precision)는 높았으나 재현율(Recall)이 낮았다. 이는 데이터의 양이 부족해서 나타난 결과였다. 당시 그 프로젝트의 고객 쪽 최고 의사결정자는 인공지능의 개념을 아주 잘 아는 분이었다. “이 프로젝트는 정밀도보다는 재현율이 중요합니다. 재현율이 낮은 건 데이터가 부족한 게 원인인 것 같아요. 재현율을 높이는 쪽으로 추가 작업을 진행하시면 될 것 같네요. 재현율을 높이려고 임계값을 일부러 낮추지는 마세요. 그건 우리가 하려는 정책에 안 맞습니다.” 우리 회사 담당자들은 이 말을 단번에 이해했고, 회의는 빠르게 종료되었다. 조직에서도 이처럼 빠르고 효율적이면서도 의사결정이 되는 효과적인 커뮤니케이션이 필요하다.
이 사례를 자세히 이해하기 위해 인공지능 모델 성과 지표 중에서 많은 사람들이 헷갈리는 재현율과 정밀도에 대해서 설명해 보자. 이는 분류 알고리즘의 평가 척도 중 하나다. 분류 모델은 일반적으로 정확도(Accuracy), 재현율(Recall), 정밀도(Precision), F1 점수를 가지고 성능을 평가한다. 이해를 돕기 위해 한 검사소에서 코로나19 검사 결과와 진짜 확진 여부를 조사했더니 다음과 같았다고 가정하자.
검사에서 양성이 7명 나왔는데, 실제로는 5명만 확진 됐고 2명은 음성이었다. 그런데 음성으로 나온 2명의 사람 중에 실제 확진자가 1명 있었다. 그러면 혼동 행렬이라고 부르는 표를 위와 같이 만들 수 있다. 실제 양성을 양성으로 올바르게(true) 판정한 것을 TP(True Positive, 맞는 양성)라고 부르고 실제로는 음성인데 양성으로 틀리게(false) 판정한 것을 FP(False Positive, 틀린 양성)이라고 부른다. 음성도 두 종류가 있다. 음성을 음성으로 맞게(true) 골라낸 경우가 TN(True Negative, 맞는 음성), 양성인데 음성으로 틀리게(false) 판별한 경우가 FN(False Negative, 틀린 음성)이다. 위 상황에 적용하면, 2명은 멀쩡한데 확진 판정을 받았고, 1명은 확진이면서도 음성으로 나와서 자가격리를 안 하게 된 것이다.
정확도는 올바르게 판정한 경우(맞는 양성과 맞는 음성)를 전체로 나눈 비율이다.
Accuracy = (TP + TN)/(TP + FP + FN + TN) = (5+1)/10 = 0.6
재현율은 실제 양성(맞는 양성과 틀린 음성) 중 양성으로 맞게 판정한 비율이다. 민감도(Sensitivity)라고도 부른다.
Recall = TP/(TP + FN) = 5/(5+1) = 0.83
정밀도는 양성으로 판정한 것(맞는 양성과 틀린 양성) 중에 실제 양성을 찾아낸 비율이다.
Precision = TP/(TP + FP) = 5/(5+2) = 0.71
F1 점수는 재현율과 정밀도의 조화평균(낮은 값에 가중치가 더 붙음)이다.
F1-Score = 2(Recall*Precision)/(Recall+Precision) = 0.77
흥미롭게도 재현율과 정밀도는 서로 반비례하는 경우가 많다. 진단 키트에 나온 작은 이상치 반응을 적극적으로 반영하여 모두 양성으로 판정한다면 재현율은 1이 된다. 그러나 10명 모두 양성으로 나왔으므로 정밀도는 0.6(6/10)으로 하락한다. 반대로 진단 키트의 결과를 소극적으로 반영하여 가장 심한 반응을 보인 1명만 양성으로 판정한다면 정밀도는 1(1/1)이다. 반면 재현율은 0.17(1/6)로 떨어진다. 위의 코로나 진단 결과를 표현한 그림에서, 기준(임계값)의 변화에 따라 재현율과 정밀도가 서로 반비례함을 볼 수 있다.
재현율은 실제 양성을 골라내지 못하면 문제가 생길 때 중요한 지표가 된다. 암, 코로나19 같은 질병 판정이나 보험 사기 적발 모델처럼 위험 관리 모델이 대표적이다. 코로나19의 경우 확진자를 짚어내지 못하면 전염 위험이 커지므로 확진자를 놓치지 않는 진단키트가 좋은 것이다. 여기서 정책적 의사결정이 필요하다. 앞에서 본 것처럼 모델의 판정 기준인 임계값을 낮춰 양성 판정을 높이면 재현율은 올라간다. 그러나 이때는 수많은 정상인을 확진자로 분류하여 자가격리 할 것이므로 사회적 비용이 발생한다. 한편, 정밀도는 실제 음성을 양성으로 판정하면 문제가 생길 때 중요한 지표가 된다. 투자 의사결정이 이런 경우다. 실제는 아닌데 투자 추천으로 거액을 투자하면 많은 돈을 잃을 수 있다. 이제 필자가 경험한 사례에서 재현율을 높이는 게 중요하다는 것과 일부러 임계값을 낮추지 말라는 의미를 이해할 수 있을 것이다. 실제 이 프로젝트는 위험을 예방하기 위한 모델링이었다.
앞으로 인공지능 기술의 활용은 점점 늘어날 것이다. 경영자나 의사결정자는 인공지능 커뮤니케이션을 할 수 있을 정도의 지식은 갖춰야 한다. 그래야 조직의 전략과 방향에 맞게 인공지능 기술을 쓸 수 있다. 왜냐하면 인공지능 기술은 수단이기 때문이다. 인공지능 모델의 분석 결과가 절대적으로 옳은 경우는 없다. 전략에 따라, 쓰임새에 따라 다르다. 가령 추천 모델 중 딥러닝 알고리즘은 성능이 더 높게 나오지만 왜 그런 결과가 나왔는지 설명할 수 없다. 고등학생에게 학과를 추천할 때 이 기술은 적절하지 않다. 학생의 인생을 결정할 수도 있는 의사결정에서 왜 추천하게 됐는지 설명할 수 없다면 수용성이 떨어질 것이기 때문이다. 이제 인공지능 기술은 현대 조직의 필수과목이 됐다. 인공지능 문외한이라도 이해할 수 있도록 커뮤니케이션해야 한다. 그래야 지식의 저주에 빠지지 않는다.