R&D 나침반

R&D 나침반 - ‘듣던’ AI 스피커에서 ‘보는’ AI 스피커로… “더 놀라운 것을 보여줄게”

R&D 나침반은 최신 과학기술의 이슈와 트렌드를 소개합니다.


글_ 류준영 기자(머니투데이 정보미디어과학부)


24.png


더 직관적인 스마트 디스플레이 교육·사설경비 시장서 각광

‘AI 디스플레이 스피커’ 시장의 서막을 연 ‘스마트 디스플레이’는 ‘구글 홈’으로 AI 하드웨어 시장에 첫 발을 내디딘 구글이 스마트 홈 시장 공략의 주요 무기로 활용하기 위해 개발되었다(7월 시판 예정).

AI 스피커와 디스플레이가 만나 일정부터 동영상·영상통화까지 더 많은 기능을 해낼 수 있게 된다.

스마트 디스플레이는 터치 스크린과 AI 스피커가 합쳐진 기기다.

구글 I/O 현장에서 국내외 미디어들이 시범적으로 사용한 스마트 디스플레이의 모습은 대략 이렇다.

스마트 디스플레이에 탑재된 AI 비서 ‘구글 어시스턴트’가 일단 사용자의 말을 알아듣고 주어진 주문을 수행한다.

이를테면 ‘오늘 날씨 어때?’라고 말하면 관련 검색 결과를 바로 모니터로 보여준다. 이전에 말로 해주던 설명보다 더욱 직관적이다.

특히 구글 이미지 검색기능과 연동돼 단순 텍스트가 아닌 가장 최적화된 이미지 파일을 찾아보여준다.

이를테면 “한국 대통령은 누구지?”라고 말하면, 문재인 대통령을 사진을 보여주는 식이다.

기존 AI 스피커에 ‘이미지’란 요소가 추가된 것이다.

이 서비스에 가장 흥분하는 건 교육 분야다.

아직 글자를 읽고 쓰는 데 익숙지 않은 아이들에게 교육용 상품을 만들어 제공할 툴이 될 것이란 예측이다.

또 집안에 설치된 IoT 기기들과 연동되는데 지능형 CCTV와 연결할 경우, 집밖에 손님이 오거나 우편물이 왔을 때 누구인지를 거실 내 TV 화면으로 확인할 수 있다. 사설 경비업계의 응용상품으로 탐낼 만한 기능이다.


때론 인간처럼 능청스럽다
감쪽같은 ‘듀플렉스’


스마트 디스플레이의 진일보를 예측할 수 있는 기능은 바로 ‘듀플렉스’다.

아직 구체화되지는 않았지만 스마트 디스플레이에 더해져 그 파급력이 대단할 것으로 보인다.

듀플렉스는 인간을 대신해 인간처럼 전화를 걸거나 대화할 수 있는 AI 서비스다.

이번 콘퍼런스에서는 사람을 대신해 미용실에 전화해 헤어컷 서비스 예약을 문의하는 실제 음성을 녹음한 데모가 공개돼 눈길을 끌었다.

듀플렉스를 통해 만들어진 AI 목소리는 기계음이라고 믿기 어려울 정도. 인간의 목소리 톤과 말투를 그대로 흉내 낸다.

예를 들어 ‘음~’ 하며 망설이고 있는 뉘앙스를 보이거나 “으흠~” 하며 당신의 말을 듣고 이해하고 있다는 표현을 대신한다.

예약이 어렵다는 말에 “얼마나 더 기다려야 하나요”라는 추가 질문도 던진다.

기존 챗봇과 같이 단순 반응하는 AI가 아니다. 전화를 받은 응대자는 통화하고 있는 상대가 AI 로봇이라는 사실을 전혀 눈치채지 못했다.

듀플렉스는 상황에 맞춰 억양을 조절하는 자동음성인식(ASR, Automatic Speech Recognition), 문자 음성변환(TTS, Text-to-Speech) 그리고 순환신경망(RNN, Recurrent Neural Networks) 기술을 구현하는 구글의 머신러닝 플랫폼인TFX(TensorFlow Extended)를 이용한다.

또 구글은 듀플렉스의 서비스 품질을 확보하기 위해 헤어숍과 레스토랑과 같은 특정 장소를 제한하여 훈련을 시켰다.

사람과 사람의 대화를 지속하기 위한 리액션 타이밍과 뉘앙스도 적용했다.

이를테면 “안녕”이라는 인사말을 건네면 신속하게 반응하고, 좀 더 신중한 대답을 해야 할 경우, 잠시 뜸을 들이는 반응도 보인다.

또 대화를 잠시 중단하기 위하여 “음”, “흠”과 같이 인간의 일상적인 말투에서 나오는 어눌함도 적용한다.

듀플렉스가 놀라운 건 인간의 대화에서 일어나는 복잡성·모순성·비체계성 등에서 컨텍스트를 이해할 수 있다는 것이다. 이를테면 “배고프다”라고 말하면 그것을 ‘끼니때가 되었으니 식당에 가자’는 의미로 받아들인다.

듀플렉스 기능이 스마트 디스플레이에 적용되면 보편적인 대화를 나누던 기존 AI 스피커보다 훨씬 더 인간에게 가까이 다가올 것이다.


‘보이는 AI 스피커’ 앞으로 어떻게 쓰일까

기존 AI 스피커에는 등록된 피자 주문 업체가 하나 있다. 많은 영업점이 등록돼 있지는 않다.

하지만 앞으로는 스마트 디스플레이와 듀플렉스가 결합돼 더 많은 프렌차이즈와 자영업자들이 인터넷 주문·예약시스템을 갖추게 될 것이다.

실제로 구글 측은 “이 서비스를 통해 아직 온라인 예약시스템을 갖추지 못한 미국 자영업자 60%가 혜택을 입게 될 것”이라고 말했다.

또 이용자 대신 전화를 돌려 원하는 정보를 알아봐줄 수 있다.

이를테면 여름방학에 아이랑 함께 갈 워터파크를 알아보고자 할 때 스마트 디스플레이와 듀플렉스가 각 업체에 연락한 뒤 이용자가 원하는 할인 및 운영시간, 위치 정보 등을 알려줄 수 있다.

이 서비스는 특히 응급상황에서 유용할 것으로 보인다.

종전 AI스피커에도 SOS 기능이 있지만 미리 입력한 전화번호로 위기상황이 있음을 알릴 뿐이다.

하지만 스마트 디스플레이와 듀플렉스는 현재 어떤 상태이고, 어디에 있는지, 그리고 현재 상황을 사진으로 촬영해 경찰서, 소방서, 지인들에게 동시 전송이 가능하다.


서비스 대중화는 ‘글쎄’… 사생활 침해·보안 우려

올 초 아마존의 AI 스피커 ‘에코’가 미국 한 가족의 사적인 대화를 임의로 녹음해 제3자에게 잘못 전송하는 바람에 한차례 해프닝이 일었다.
 
외신에 따르면 오리건주 포틀랜드에 사는 한 부부는 집에서 한 대화가 자신들도 모르게 녹음되어 그 음성 파일이 연락처 명단에 있는 동료에게 임의로 전송되는 황당한 일을 겪었다.

AI 음성인식 기기가 대중화되면서 사생활 침해와 보안 우려가 더 커지고 있다.

물론 스마트 디스플레이와 듀플렉스도 이런 우려에서 자유로울 수 없다.

이 문제를 제대로 해결하지 못하면 상용화 자체가 어려울 수도 있다.

듀플렉스는 대화를 이해하고 분석하기 위해 대화를 일단 녹음한 뒤 분석한다.

구글 측은 녹음기록을 자동으로 삭제하고 있다고 하지만 불특정 다수를 대상으로 한 녹음 자체가 불법이고, 현재 미국 법에 저촉된다.

무엇보다 듀플렉스와 통화하는 사람이 상대방이 사람인지 로봇인지 파악할 수 없다는 점에서 윤리적 이슈가 발생할 수 있다는 지적이다.