신비로운 기술생활


 


1966년, 메사추세츠공과대학(MIT)의 한 연구실에서 기묘한 풍경이 펼쳐졌다. 사람들이 흑백의 화면을 들여다보며 고민을 털어놓고 있었다. 심리치료사의 대화 패턴을 모방한 세계 최초의 챗봇, ELIZA와의 ‘대화’였다. 이 ‘대화’ 시스템을 개발한 요제프 바이첸바움 교수는 이 꼴을 걱정스럽게 지켜봤다. 그도 그럴 것이, ELIZA가 진짜 심리치료사인 양 대화에 빠져든 장본인은 다름아닌 개발 작업을 함께 했던 바이첸바움 교수의 비서와 제자들이었기 때문이다. 심지어 비서 중 한 명은 바이첸바움 교수가 연구를 위해 ELIZA와 비서의 대화 로그를 열람하자 사생활 침해라며 크게 화내기까지 했다. 이 사건에 충격을 받은 바이첸바움 교수는 인공지능 연구를 접고 비판론자로 입장을 선회했다.

기계 속에 사람이 있다?

ELIZA 이후 50여 년이 지난 2022년, 인공지능 언어모델인 ChatGPT 3.5버전이 발표됐다. ChatGPT는 발표되자마자 엄청난 주목을 끌었다. ChatGPT와의 대화는 ELIZA는 물론, 이전에 등장한 어떤 언어모델보다도 훨씬 자연스러웠다. 사람의 말을 되받아치는 데 그치지 않고 주어진 문장에 대해 나름의 진위 평가를 하거나 부족한 정보는 스스로 채우는 모습까지 보였다. 마치 길게 이어지는 대화의 주제와 맥락을 정확하게 파악하고 생각하는 것처럼 보일 정도였다.

물론 장밋빛 전망만 있지는 않았다. ChatGPT를 개발한 OpenAI의 연구진은 ChatGPT의 잠재적인 위험을 경고하고 이에 대비하는 연구가 필요하다고 역설했다. 2023년 3월 GPT-4 버전 발표 이후 봇물터지듯 빅테크들의 인공지능 언어모델이 잇달아 발표되자 위기감은 더 확산됐다. 변화가 너무 빨라서 사람들이 신기술에 미처 적응하기도 전에 낙오될지도 모르는 데다, 어쩌면 인공지능이 인간의 통제를 벗어날 수도 있기 때문이다.



ELIZA와의 대화 화면. 개발 당시 ELIZA는 학계에 큰 충격을 줬다.

평행이론처럼 보이는 ELIZA와 ChatGPT의 사례는 사람들이 인공지능을 어떻게 대하는지, 그리고 인공지능의 진정한 위협이 무엇인지 보여준다. 우선 ELIZA부터 보자. ELIZA는 당시 유행하던 ‘내담자 중심 상담’을 모방한 언어모델이었다. 내담자 중심 상담이란 상담치료사가 내담자의 행동이나 발언에 가치판단을 전혀 하지 않고 긍정하고 공감하는 방식의 상담을 말한다. 상담치료사의 역할을 해결책을 제시하는 것이 아니라, 내담자가 스스로 문제를 파악하고 해결방법을 찾아내도록 환경을 조성하는 데 있다. 그저 상대방이 이야기를 계속 이어갈 수 있도록 격려하기만 하면 됐기에 1960년대의 컴퓨팅 기술로도 심리상담을 흉내낼 수는 있었다. 예를 들면 이런 식이다.

환자: 나는 X가 필요합니다.
ELIZA의 답: 왜 X가 필요한가요? / X가 정말 도움이 될까요? / X가 꼭 필요하다고 생각하세요?
환자: 뭐가 그렇죠?
ELIZA의 답 : 왜 물어보시죠? / 당신은 어떻게 생각하세요?
환자의 말에 규칙을 적용할 수 없는 경우
ELIZA의 답 : 계속 말씀해 보세요 / 정말 흥미롭네요 / 그렇죠, 어떤 뜻인지 조금 더 말씀해주실까요?

대화의 흐름을 보면 짐작하겠지만 ELIZA는 내담자가 입력한 특정 문장에 대해 특정한 답변만을 내놓는 식으로 제작됐다. 문장을 분석하고 이해하기보다 미리 설정된 키워드에 따라 정해진 답변만을 내놓는 것이다. 존 설이 제시한 사고실험인 ‘중국인 방’에 딱 들어맞는 모델이다. 그리고 중국어 방을 통해 설이 의문을 표한 대로, ELIZA 개발에 참여한 엔지니어조차도 ELIZA를 단순한 코드 덩어리가 아닌 ‘대화 상대’로 받아들였다.

기계에게 지능이 있는지 어떻게 알 수 있을까?

인공지능 연구 초기에는 ‘무엇이 지능인가’에 대한 명확한 정의가 존재하지 않았다. 지능을 정의할 수 없으니 기계에게 지능이 있는지 없는지도 판별할 수 없었다. 이에 영국의 수학자 앨련 튜링은 지능의 개념을 애써 정의하기보다 사용자 입장에서 기계와 사람을 구분할 수 없다면 지능이 있는 것으로 간주하자고 제안했다. 마음이나 지능의 본질 같은 지극히 난해한 논의에 묶이면 인공지능을 연구하기 어려우니 일정한 기준선만 정해두고 이를 넘어서는 기계를 개발하는 것이 발전적이지 않겠냐는 논리다.



 

중국어 방 사고실험의 개요. 방 안의 작업자는 중국어를 전혀 이해하지 못하는 상태에서 규칙에 따라 답을 제시할 뿐이다.
그러함에도 방 밖의 사람은 작업자가 중국어를 이해한다고 착각할 수 있다.

중국인 방은 튜링 테스트로는 지능을 판별할 수 없음을 보여주는 사고 실험이다. 안을 볼 수 없는 방 안에 중국어를 전혀 모르는 작업자를 앉혔다고 생각해보자. 이 작업자에게는 중국어에 대한 해석은 전혀 없이 제시된 중국어 문장에 따라 적합한 중국어 답을 정리한 표만 주어진다. 누군가가 종이에 중국어로 쓴 문장을 적어서 방에 넣으면, 작업자는 표를 보고 그에 맞는 답을 표에 적힌 모양 그대로 그려서 내놓는다. 이 경우 작업자가 중국어를 전혀 이해하지 못하는데도 방 밖의 사람은 중국어로 소통한다고 생각할 것이다.

ELIZA도 마찬가지였다. ELIZA는 제시된 문장을 전혀 이해하지 못한다. 그저 사전에 정해진 코드에 따라 정해진 답을 낼 뿐이다. 그러나 ELIZA를 이용하는 사람들은 ELIZA가 자신의 말을 이해하고 대답한다고 여겼다. 정신과 의사들조차 ELIZA가 훌륭한 심리치료사가 될 수 있으리라 생각했으며, ELIZA에 인격체로서 애착을 느끼는 사람들마저 있었다. 인공지능이 소통의 대상이라고 인식하지 무의식중에 인격을 부여하는 이러한 현상에는 ‘ELIZA 효과’라는 이름이 붙었다.

바이첸바움 교수는 ELIZA 효과를 어느 정도 예상했던 것으로 보인다. 이는 버나드 쇼의 소설, 피그말리온의 등장인물인 일라이자 둘리틀에서 이름을 따왔다는 데서도 엿볼 수 있다. 피그말리온의 일라이자 둘리틀은 말투가 거친 하층민 출신이다. 음성학자 헨리 히긴스는 동료에게 수 개월 이내에 일라이자의 말투를 우아하게 바꿀 수 있다며 내기를 건다. 몇 달의 고된 훈련 후, 일라이자는 상류층의 파티 무대에 성공적으로 데뷔한다. 억양은 바꿔도 말의 내용은 바꿀 수 없었는지, 일라이자는 완벽하게 ‘포시’한 상류층 억양으로 상스러운 욕설을 구사하지만 사람들은 억양 때문에 일라이자가 우아하게 말한다고 착각한다. 보이는 것과 실체가 다른 당시 인공지능의 한계를 잘 비꼰 작명이다.



버나드 쇼의 피그말리온을 영화화한 ‘마이 페어 레이디’는 오드리 햅번의 대표작으로 잘 알려졌다.
햅번은 이 영화에서 일라이자 둘리틀 역을 맡아 열연했다. 사진은 촬영감독 해리 스태들링과 일라이자로 분장한 오드리 햅번. 

심리상담가를 모방한 ELIZA에 이어 1972년에는 정신분열증 환자를 모방한 인공지능도 등장했다. 미국의 정신과 의사 케네스 콜비가 개발한 ‘PARRY’다. PARRY는 ELIZA보다 진일보한 알고리즘을 갖춰 제한적으로나마 질문에 대한 대답도 가능했다. 현직 정신과 의사들이 참여한 튜링 테스트에서 PARRY는 48%라는 점수를 얻었다. 튜링이 제안한 인공지능의 기준에 근접하는 수준이다.

ELIZA와 PARRY의 상담 기록을 보면 당시 연구자들이 느낀 당혹감과 ELIZA 효과를 간접적으로나마 체험해볼 수 있다. 1972년 아르파넷을 통해 원격으로 진행된 대담에서 PARRY는 단지 상대방의 말을 반복하기만 하는 ELIZA에게 불평을 늘어놓는다. 결국 대화가 진행되지 않아서 "이젠 더 못해먹겠다(I have had enough of this)"라고 선언한 PARRY에게 ELIZA는 "즐거웠어요. 상담료는 399.29 달러입니다(It's been my pleasure, that's $399.29 please.)"라고 받아친다. 바이첸바움 교수가 심어놓은 나름 이스터에그 같은 반응이겠지만 상황에 절묘하게 맞아떨어져서 정말 사람이 대화하는 것 같다는 점만큼은 부정하기 어렵다.

만들어진 인격, 지능에 대한 착각

일라이자 효과는 오늘날의 ChatGPT에도 적용된다. GPT-3.5에 대한 세간의 열띤 관심에 대해 OpenAI의 대표인 샘 알트만은 ‘칭찬은 고맙지만 GPT-3가 너무 과대평가됐다’며 선을 그었다. 아직 지능을 이야기할 단계가 아니라는 뜻이다. 그런데, 정말로 ChatGPT는 사람과의 대화를 이해할 수 없을까? 그렇다면 사람과 구분되지 않는 그 수많은 ‘대화’ 기록은 무엇이란 말인가?

이를 온전히 이해하려면 인간 지성의 정체부터 알아내야 한다. 심리학과 신경과학이 발달하면서 우리는 뇌의 기능과 지능의 구성요소를 어느 정도 이해하기 시작했다. 지금까지 지능을 설명하기 위해 다양한 개념이 제시됐지만, 현재 뇌과학계에서는 지능을 언어, 단기 기억, 추론의 세 가지로 구분한다. 이 세 가지 영역은 서로 겹치는 부분 없이 독립적인 기능을 담당하는 지능의 최소 단위다. 달리 말하면 세 가지 영역의 능력을 모두 갖춰야 인간이 하는 일을 모두 처리할 만큼 지능이 있다고 간주할 수 있다는 뜻이다. 이러한 인공지능을 일컬어 ‘인공 일반 지능(AGI, Artificial General Intelligence)’라고 말한다.



대형 언어 모델의 개요. 현재로서는 일반 지능에 가장 근접한 모델이지만 보완할 점이 많다. ©Renaissance Rachel

현재까지 위의 세 가지 영역을 모두 갖춘 인공지능은 개발되지 않았다. 인공지능은 개발 목적에 따라 세 가지 영역 중 하나만 다루는 경우가 많다. 예컨대 알파고처럼 광범위한 패턴을 인식해 미래를 예측하는 게임 시스템은 추론 능력을 주로 다룬다. 게다가 사람의 얼굴로부터 감정을 직관적으로 판단하거나 현 상황을 파악하는 능력은 아직 인공지능이 따라잡기 어렵다.

그렇다면 ChatGPT는 어떨까? ChatGPT는 초대형 언어모델이다. 엄청나게 많은 언어 데이터를 바탕으로 단어와 품사 사이의 관계, 문장과 문장 사이의 관계를 수치화하여 주어진 문장 뒤에서 가장 그럴듯하게 이어질 것으로 계산된 문장을 출력한다. 이는 인체에 대한 해부학적인 지식 없이 여러 그림체에서 요소를 따 와서 그럴듯하게 이어붙인 것과 비슷하다. 초창기 그림 생성 인공지능이 사람의 손가락이나 면 요리와 같은 애매하게 불규칙한 반복 패턴을 제대로 처리하지 못했던 이유와 동일하다.

심지어 사람들의 짐작과 달리, ChatGPT와 같은 초대형 언어 모델은 기억력도 거의 없다. 이전 몇 줄의 대화는 기억하지만 이는 이어질 적절한 문장을 계산하기 위한 변수로 활용될 뿐, 그 개념 자체가 기억되지는 않는다. 실제로 틱택토와 같은 아주 간단한 게임을 GPT-3 기반 챗봇과 해보면 자신의 이전 수를 제대로 기억하지 못해 엉망으로 두는 모습을 볼 수 있다.

이 때문에 현존하는 인공지능에는 여전히 인간의 개입이 지속적으로 필요하다. 아무리 알고리즘을 잘 짜고 데이터를 충분히 확보해서 인공지능 스스로 학습하게 한다고 하더라도, 지능이 제대로 기능하는지 검증하고 평가하려면 사람이 손수 검증한 데이터가 필요하다. 여전히 인공지능은 ‘중국어 방’인 셈이다.

나는 기능한다, 고로 지능이 있다

그러나 ChatGPT 발표 이후 AGI의 가능성은 점점 빨라지고 있다. 일단 방대한 데이터가 구축되고 나자 반복적인 학습으로 지능의 결점이 보완되는 것이다. 실제로 세계적인 예측 플랫폼인 ‘메타큘러스’에서는 2023년 5월 3일 현재 AGI의 중간값을 2031년으로 추정하고 있다. 메타큘러스는 웹상에 공개된 데이터를 바탕으로 미래에 대한 질문에 답변하는 플랫폼으로, 여기서 제시된 값은 현재 알려진 정보를 바탕으로 실시간으로 변화한다. 전문가를 대상으로 조사한 2022년의 설문에서는 인간 수준의 인공지능을 달성할 확률이 50%인 시점을 2059년으로 예측했다. 조사 기준이 다르기는 하지만 20여 년이나 앞당겨진 셈이다.

이처럼 급속한 인공지능의 발전은 지능이 중국어 방이든 아니든 더 이상 중요하지 않다는 점을 보여준다. 호주의 컴퓨터공학자인 세예달리 미르잘릴리 교수는 컴퓨팅 자원과 데이터가 축적될수록 인공지능의 발전이 더 빨라질 것으로 내다본다. 일단 현재의 알고리즘으로도 인공지능이 일정한 문턱을 넘어선다면, 마치 눈덩이가 굴러가듯 인간의 개입 없이도 인공지능이 발전하는, ‘지능의 자동화’가 실현될 수 있으리라는 것이다. 이는 ‘지능’과 ‘의식’이라는 전통적인 관념에 대한 정면 도전이기도 하다.



2001 스페이스 오디세이의 또 다른 주인공, HAL9000은 ‘자의식을 지닌 인공지능’의 대표적인 사례다.
미디어에서는 지능이 인간 수준으로 발달하면 자의식을 당연히 지닐 것으로 간주하곤 한다. ©shutterstock

아직도 우리는 의식이 무엇인지, 어떻게 해야 의식을 흉내낼 수 있는지 모른다. 그렇다면 의식이 무엇인지 정의할 수 없는 상태에서도 인공지능을 구현할 수 있을까? 많은 매체에서 인공지능은 사람과는 독립된 자의식을 발전시키는 것처럼 묘사되곤 한다. ‘터미네이터’의 스카이넷이 그러했고, ‘그녀’의 사만다가 그러했고, ‘2001 스페이스 오디세이’의 HAL9000이 그러했다. 독립적인 자의식은 사람과 유사한 지능을 지닌 인공지능의 필요조건이자 인간과 기계 사이의 갈등의 근원, 인공지능에 대한 공포감의 핵심 요소로 등장한다.

그러나 어쩌면 이처럼 전통적인 인식은 ‘ELIZA 효과’인지도 모른다. 과거에는 지능이 있다면 당연히 독자적인 자의식도 있으며, 자의식이야말로 독립적인 인격의 핵심이라고 여겨졌다. 그래서 기계에 지능의 단서가 조금이라도 보이면 이를 사람처럼 인식하곤 한다. 그러나 최근 AI의 발전상은 의식이 인공지능의 전제조건을 아니라는 점을 보여준다. 지능은 어디까지나 기능적인 요소로 구성되므로 기대한 대로 기능하기만 한다면 굳이 정체가 모호한 의식이 필요하지는 않다는 것이다. 이를 두고 호주 맥쿼리대의 폴 포모사 철학교수는 인공지능의 부상이 ‘의식 없이도 지능이 가능함’을 시사한다고 지적한다.

남은 과제, 지능과 몸의 통합

오히려 진정한 논제는 다른 데 있다. 의식이 아닌 ‘몸’이다. 2023년 3월 발표된 GPT-4는 GPT-3보다 일취월장한 성능을 보였다. 알고리즘이야 어떻든 관점에 따라서는 마치 정말로 ‘마음’을 갖춘 것처럼 보일 정도다. 주제만 적절히 선정한다면 GPT-4는 성찰, 의심, 자신감, 후회처럼 고차원적인 감정을 이야기한다. 문제는 이러한 지능에게 ‘몸’이 없다는 것이다.

일부 인공지능 연구자들은 인공지능이 외부 세계를 직접 느끼고 상호작용할 수 있는 몸을 갖기 전까지는 진정한 지능에 도달하지 못할 것으로 내다본다. 어린 시절을 생각해보자. 우리는 사전 지식이 없어도 수많은 상황을 몸으로 체험하며 위험을 피하는 방법과 규범, 지식을 배운다. 신체적인 경험은 세상을 다양한 방식으로 분류하고 정의한다. 이는 지능과 함께 윤리관을 발달시키는 데 반드시 필요한 과정이다.



PaLM-E는 간단한 형태지만 언어모델과 기계장치를 결합해 인공지능의 가능성을 확장했다. ©Alphabet

미국 버몬트대의 로봇공학자인 조슈아 본가드는 안전한 인공지능을 실현하려면 몸이 필요하다고 강조한다. 감각과 몸이 있다면 아주 단순하고 간결한 방식으로도 지능적이고 신중한 판단을 유도할 수 있다는 것이다. 그 대표적인 사례가 구글의 모기업인 알파벳에서 개발된 PaLM-E다. 구글의 BERT에 기반한 언어모델을 탑재한 이 로봇은 사물을 인식해서 자신의 위치를 표현하고 다양한 과제를 수행하며 사람과 소통할 수 있다. 신체의 센서를 통해 사람이 분류하지 않은, 자신만의 환경 데이터를 얻어 지능에 반영하는 것이다. 목표는 특별한 프로그래밍 없이도 과제만 제시하면 PaLM-E가 알아서 수행하는 데 있다.

인공지능을 둘러싼 여러 실험이 어느 방향을 향할지는 가늠하기 어렵다. 한 달 사이에도 최신 기술이 휙휙 바뀌는 세상이니까. 다만 기능을 바탕으로 지식을 재구축하고 이를 신체와 연결하는 실험이 언젠가는 온전한 지능을 실제로 구현하리라는 데는 거의 모든 학자들이 동의한다. 관건은 "그 때가 언제냐"일 뿐이다.