과학기술 플러스 - 최고의 UI로 주목받는 음성인식 기술

아트 & 사이언스

최고의 UI로 주목받는 음성인식 기술

과학기술 플러스는 최근 이슈가 되는 과학 기술 및 연구, 과학발전사 등에 대해 깊이 있게 살펴봅니다.

글_이성규 과학칼럼니스트

지난 1월 미국 라스베이거스에서 개최된 세계 최대 IT 전시회 ‘CES 2017’의 최대 이슈는 단연 아마존의 음성인식 기술인 ‘알렉사(Alexa)’였다.

인공지능 음성비서 서비스인 알렉사는 LG전자의 냉장고, 삼성전자의 로봇청소기, 폭스바겐의 자동차, 화웨이의 스마트폰 등 수백 개에 달하는 기기에 탑재돼 이 전시회를 찾는 관람객들을 맞았다.

그밖에 보쉬, 샤오미, 파나소닉, 레노버, 바이두 등 세계 유명 ICT기업들이 CES 2017에서 선보인 최신 제품에도 한 가지 공통점이 있었다. ‘인공지능(AI, Artificial Intelligence) + 음성인식 기술’의 융합 제품이라는 점이 바로 그것이다.

인간이 하고 있는 여러 가지 전문 작업들을 대신할 수 있는 AI 기술은 사용자와 대화하며 정보를 교환할 수 있어야 하므로 음성인식 기술의 확보가 필수다.

예를 들어 집안의 모든 장치들을 연결해 제어하는 기술인 스마트홈이나 자율주행차의 경우 마치 친구한테 말을 하듯 음성으로 컨트롤할 수 있어야 한다.

이는 이미 사용자들의 인식조사 결과에서도 확인된 사실이다.

미국의 유명 부동산중개업체인 콜드웰뱅커에서 스마트홈 서비스 사용자들을 대상으로 설문조사를 실시한 결과, 음성으로 제어해야 한다고 답변한 이가 72%로 나타났다.

즉, 스마트홈을 설치하는 이유는 가족 구성원 누구나 어떤 상황에서도 자유롭게 이용하기 위함인데, 그 조건을 가장 충족시키는 사용자 인터페이스(UI, User Interface)가 바로 음성이라는 의미다.

컴퓨터의 UI는 키보드와 마우스 등을 거쳐 터치스크린으로 발전해왔다.

하지만 여전히 많은 사용자들이 불편함을 느끼고 있는데, 완벽한 음성인식이 가능해지면 최고의 UI가 될 수 있다. 따라서 AI와 사물인터넷(IoT)이 결합한 미래의 IT 생태계는 알렉사 같은 음성인식 기술이 주도할 것으로 예상된다.

음성인식 기술을 바탕으로 한 본격적인 음성인식 서비스가 소개되기 시작한 것은 2000년대 후반부터다. 대표적인 것이 애플의 시리, 구글의 나우, 마이크로소프트의 코타나 등이다.

삼성과 LG의 스마트폰에 탑재된 S보이스와 Q보이스도 포함된다. 이러한 음성인식 서비스들은 새로운 UI 역할을 하며, 모바일 검색은 물론 일정관리, 메모, 음악 재생, 전화 걸기 등 다양한 생활 편의 서비스를 제공했다.

최근 들어 가장 주목받은 제품은 말을 건네는 것만으로 좋아하는 음악을 틀어주는 스피커로 알려진 아마존의 ‘에코’다. 스피커형 음성 지원 단말기인 이 제품은 전자책 ‘킨들’을 능가하는 아마존 하드웨어 역사상 최대의 히트작이다.

그런데 진짜 아마존의 히트작은 에코의 핵심 기술인 ‘알렉사’다. 에코가 히트한 것은 바로 인간의 음성을 정확하게 인식하고 답변할 줄 아는 알렉사 덕분이었던 것이다.

때문에 아마존에서는 에코보다 오히려 알렉사에 더욱 기대를 걸고 있다. 아마존은 알렉사의 음성인식 기능을 타사에도 개방함으로써 모든 제품에 활용할 수 있는 플랫폼으로 육성시키려는 전략을 구사 중이다.

글로벌 IT 기업들도 발 빠르게 움직이고 있다. 지난해 음식인식 기술을 보유한 스타트업 API.ai를 인수한 구글은 올해 다시 스웨덴의 스타트업인 라임스오디오를 인수했다. 이 회사는 지난 10년 간 음성통화 및 영상 품질 관련 기술의 외길을 걸어온 기업이다.

페이스북은 2015년에 음성인식 기술 관련 업체인 Wit.ai를 인수했으며, 애플도 보컬큐란 업체를 인수하는 등 음성인식 기술 확보에 열을 올리고 있다.

일본의 샤프사는 모든 가전제품에 마음을 불어넣는 ‘마음 프로젝트’를 추진 중이다. 마음 프로젝트란 인공지능 및 음성인식 기술 등을 사용해 소비자의 기분을 감지하고 조언을 해주는 등 친구 같은 가전제품을 만드는 사업이다.

예를 들어 헬시오(HEALSIO)라는 전자오븐은 사용자가 평소 만든 요리 종류를 기억했다가 평상시에는 만들지 않은 새로운 메뉴를 추천해 주기도 하고, 음성 대화를 통해 어떤 요리를 할지 상담해 바로 조리해 주기도 한다.

중국 최대 엔진검색 기업인 바이두는 스탠포드대학교와 워싱턴 대학교의 연구팀을 끌어들이는 등 음성인식 기술 개발에 가장 적극적이다.

이를 바탕으로 지난해 선보인 ‘딥스피치2’라는 AI 기반의 음성인식 시스템은 음성인식 정확도가 97%에 이른다. 또한 자판으로 입력할 때보다 오타가 날 확률이 영어의 경우 20.4%, 중국어의 경우 63.4%를 더 줄일 수 있는 것으로 확인됐다.

기존 음성인식 시스템의 가장 큰 문제점은 주변 소음과 사투리였다. 주변의 다양한 소음들 속에서 사람의 목소리만을 구별하는 것과 동일 언어라 해도 사투리를 구사하는 사람의 음성을 잘 구별하지 못했던 것이다.

그러나 딥스피치2는 수많은 데이터 속에서 패턴을 발견하는 기계 학습 기술인 딥러닝을 통해 그 같은 문제점을 해결하고 있는 것으로 알려졌다. 바이두의 연구진은 앞으로 5년 후쯤이면 음성만으로 기계를 가동하고 조정할 수 있을 것으로 전망하고 있다. 삼성은 지난해 미국의 기업 ‘비브랩스’를 인수했다.

이 회사는 애플의 ‘시리’를 개발한 연구진이 모여 창업한 업체다. 덕분에 삼성은 CES 2017에서 세계 최초의 듣는 냉장고인 ‘패밀리허브 2.0’을 출시해 주목을 끌었다.

이 냉장고는 사용자의 음성을 명확히 인식해 우유나 주스 등의 온라인 주문은 물론 음식 조리법 읽어주기, 최신 뉴스 및 날씨 알려주기 등의 기능을 수행할 수 있다. 삼성은 TV와 세탁기 등 앞으로 출시될 모든 가전에 음성인식 기능을 탑재할 계획이다.

삼성은 국내 은행과 공동으로 말 한 마디에 계좌이체를 할 수 있는 ‘음성인식 송금서비스’도 올 상반기 중으로 출시한다.

이 서비스의 핵심은 비밀번호 입력 등의 스마트폰 터치 없이 목소리만으로 송금하는 것이다. 사용자가 음성으로 명령을 내리면 홍채인식으로 개인 인증을 한 다음 송금한다.

하지만 아직도 국내의 음성인식 기술 수준은 미국 같은 선진국에는 미치지 못한다. 그 첫 번째 이유는 바로 언어의 차이다.

영어는 문법적인 규칙상 한국어보다 자연어 처리 부분에서 훨씬 유리하다. 그에 비해 한국어는 생략이 쉽고 어순도 자유로워 분석이 까다로운 편이다.

또 다른 이유로는 말뭉치의 차이가 꼽힌다. 말뭉치(Corpus)란 언어학에서 구조를 이루는 텍스트의 집합이다.

즉, 확률·통계적기법 등을 이용해 자연어 연구를 위한 언어 표본을 추출한 집합을 말한다. 말뭉치가 풍부하면 AI를 학습시켜 음성인식의 정확도가 높아지는 것은 물론 기계식 응답도 잘할 수 있다.

영어의 경우 오래 전부터 말뭉치와 관련된 학습 데이터를 구축해온 반면, 한국어는 상대적으로 연구의 역사가 짧다.

하지만 국립국어원과 한국전자통신연구원(ETRI)을 비롯해 각 대학의 젊은 연구진에서 음성 데이터를 축적하고 있어, 한국어의 음성인식기술 발전에 탄력이 붙고 국내의 기술 수준도 활성화될 것으로 기대된다.