인공지능 기반의
외국어 말하기 학습 기술 개발
인공지능(AI) 기반의 교육은 Covid-19과 같은 감염병 환경에서 의료, 원격 및 화상 회의 등과 더불어 매우 높은 관심을 받고 있는 응용 영역의 하나이며, 특히 비대면 환경의 AI 교육은 제2차 감염병 환경을 대비하는 가장 필수적인 요소 기술로 꼽히고 있다. 인공지능 기반의 외국어 말하기 학습 기술은 비원어민 학습자가 발성한 영어 또는 한국어 음성을 정확하게 인식하여 문자로 변환하는 음성인식 기술에 기반하여 학습자 음성의 유창성을 평가하는 기술과, 변환된 문자에 대해 학습자의 의도를 이해하고 대화를 진행하는 대화 처리 기술, 마지막으로 학습자의 학습을 돕는 교육적 피드백 기술로 구성된다.
외국어 교육 측면에서는 듣기와 읽기 중심에서 말하기와 쓰기 중심의 실질적이고 실용적인 사용을 중시하는 방향으로 옮겨가고 있지만, 말하기 교육은 일반적으로 원어민과의 대면 학습에 기반할 경우 학습 효과가 제고되나 시간적 공간적 제약이 따르고 학습 비용 또한 많이 요구된다. 이에 음성인식 기능을 이용 하여 원어민과 대면하여 학습한 효과를 얻고자 하는 시도가 있지만, 일반적인 음성인식 기술의 경우 원어민 발성에 대해서는 높은 정확도를 나타내지만, 모국어의 영향을 받아 발음 특성이 다르고 억양 및 강세를 정확히 구현하기 어려운 관계로 비원어민의 발성에 대해서는 비교적 낮은 음성인식 정확도를 보이게 된다.
한국전자통신연구원에서는 이러한 비원어민의 외국어 말하기 학습 환경을 개선하기 위해 비원어민 발성 특성을 반영한 음성인식 기술에 기반하여 정확한 발성 평가를 지원함으로써 보다 실용적인 외국어 교육 시스템을 구축할 수 있도록 하는 기술을 중장기적 로드맵에 따라 개발하고 있다. 이러한 기술은 비원어민의 발성에 대해 원어민 수준의 음성인식 성능을 나타내고 또 원어민 선생님을 대신하여 비원어민의 말하기 능력을 향상시킬 수 있는 자기주도학습 도구로 활용이 가능하다고 하겠다.
인간 지능을 모사하는 인공지능 기술은 제4차 산업 혁명의 근간으로써 아직 완성도는 떨어지나 멀지 않은 장래에 우리 문화, 사회, 산업, 교육 현실에 뿌리 내릴 것으로 전망되고 있다. 2017년에 세계적인 명문 대학인 영국의 옥스퍼드대와 미국의 예일대 연구진의 공동 연구결과에 의하면 기계의 지능이 사람과 같아지는 특이점(singularity)을 설명하면서 인공지능이 약 45년 내에 모든 인간의 업무를 할 수 있게 되고, 약 120년 내에는 인간의 업무를 모두 자동화할 수 있을 것으로 예측하고 있다. 교육의 영역도 예외가 아니며 인공지능에 기반하는 영어 말하기 학습 기술은 현재의 발음 평가 또는 발음 연습 중심의 단순 반복 사이버 학습에서 중장기적으로 원어민 교사와의 말하기 학습 수준으로 대체될 것으로 보이며, 대화 순서 등이 고정된 기존의 역할놀이(role play)형 학습 방법에서 문맥에 맞추어 자유로운 대화가 가능한 형태로 진화할 것으로 예상된다.
현 단계에서의 영어 말하기 학습 서비스는 학습자의 발성 내용으로부터 문법과 대화 내용의 적합성을 확인하고 피드백을 제시함으로써 제한적인 영어 교사의 역할을 수행하는 것을 목표로 한다. 이 기술은 크게 음성인식과 대화 처리 기술로 구성되는데 음성인식은 비원어민 학습자의 발성에 대해서 높은 인식 정확도를 나타내어 비원어민의 발성 유창성 수준을 제시하도록 최적화되어야 하며, 대화 처리는 주어진 주제를 기반으로 문법 및 표현 오류를 검출하여 교육적으로 피드백하는 기술과 학습 주제에 맞춰 대화를 수행하고 관리하는 기술이다.
또한 영어 말하기 학습 서비스 시스템은 질문하고 말하기에 능숙하지 않은 학습자에게 답변에 대한 제안을 함께 제공함으로써 학습자와의 대화를 이끌어 특정 주제에 집중하도록 한다. 시스템은 비원어민 학습자의 영어 발성을 인식하고, 주어진 질문에 대한 적절한 대답인지 평가하고, 문법 오류를 확인하여, 궁극적으로 학습자가 자신의 영어 실력을 연습할 수 있도록 피드백을 제공한다. 그림 1은 이를 위한 시스템의 개요를 도해하고 있는데 기본적으로 인공지능과 일대일 대화를 통해 자기주도형 학습을 수행하며, 다음 단계에서 학습자들이 모둠지어 자유롭게 대화하는 환경 까지 제공하는 것이 가능하다. 이하에서는 영어 말하기 학습 기술의 구성 요소인 음성인식, 발음 평가, 대화 처리에 대해서 간단히 소개할 것이다.
그림 1. 인공지능 기반의 말하기 학습 기술 체계도
먼저 음성인식 기술은 최근 기계학습 알고리즘의 하나인 딥러닝 기술의 발전에 힘입어 가장 비약적인 성능 개선을 이룬 기술 영역의 하나로써, 유창성이 떨어지고 문법이나 표현 오류가 빈발하는 비원어민을 위해 충분한 규모의 원어민 음성과 비원어민 한국인 영어 발성을 통합하여 음향 모델을 학습하여 사용하게 된다. 언어모델은 영어의 어휘적 쓰임새를 학습해 놓은 일종의 어휘적 지식으로써 학습 대상 콘텐츠의 발성 스크립 트, 자유 발화 형태의 대화체 문장, 한국인 학습자가 흔히 범하는 문법적으로 잘못된 문장을 포함한 문장을 기반으로 학습이 되어 비원어민의 유창성이 떨어 지면서도 비문법적 입력에 대응하게 된다. 이러한 음향 모델 및 언어 모델은 학습자가 문법적인 오류를 범하더라도 그 발성한 바를 그대로 텍스트로 변환하는 것이 중요한데, 이를 다음 단계인 평가 및 튜터링 과정에서 활용할 수 있도록 하기 위함이다. 그림 2는 비원어민과 원어민에 공히 높은 정확도를 보이는 음성 인식 기술의 개요를 보이고 있다.
그림 2. 비원어민 발성에 대한 고정밀 음성인식 기술
그림 3. 발음 평가 기술 체계도
유창성 평가 기술은 비원어민 학습자 발성에 대해 높은 신뢰도로 발음 정확도를 평가하고 수준별 피드백을 생성하기 위해 음성인식, 음성분석, 자연어 처리 기술에 기반하여 사용자 음성으로부터 평가에 유의미한 다양한 특징을 추출한다. 기본적으로는 인간 평가자(human rater)의 평가 점수와 기계 평가 점수와의 상관관계를 제고하도록 다양한 특징을 입력으로 하고 인간 평가자의 평가 점수를 목표로 하는 딥러닝 알고 리즘을 적용하거나 또는 회귀 최적화 알고리즘을 거쳐 발음평가모델(scoring model)을 학습한다. 이렇게 생성된 평가 모델에 기반하여 평가 논리를 구현하여 실제 입력되는 학습자의 발성에 대해 평가를 수행한다. 그림 3은 이와 같은 개발 과정을 보이고 있다.
대화 처리는 일반적으로 인공지능 비서인 Apple Siri, Amazon Alexa, Google Assistant, 삼성 빅스비, SKT 누구, KT 기가지니 등에 가장 필수적으로 사용되는 인간처럼 대화를 진행하는 기술이라 하겠다. 영어 말하기 학습을 위한 대화 처리는 목적 지향 대화 처리(Goal-oriented Dialogue Processing), 챗봇(Chatbot 또는 Chitchat), 질의응답(Question and Answering) 기술 등이 결합한 형태이다. 목적 지향 시스템은 주제별 자유대화 관리를 목표로 하고 특정 목적이나 업무를 완성하기 위해 시스템이 사용자와 대화하는 기술이다. 시스템은 이 목적과 업무를 완성하기 위한 대화를 진행하기 위해 사용자의 발화를 이해하여 대화 문맥과 목적에 맞게 응답을 한다. 챗봇 시스템은 비주제 대화처리를 목표로 하여 일상생활에서 인간이 하는 대화를 비슷하게 수행하기 위한 기술이다. 목적 지향의 대화가 아니므로 앞선 대화에 어떻게 반응하는 것보다 얼마나 사람처럼 보이는가에 중점을 두어 개발되고 있다. 질의응답 기술은 글로 작성된 지식을 언어 이해로 지식을 추출해서 사용자의 질문에 정확한 답을 제시하는 기술이다. 대화 시스템의 마지막은 말하기 학습 결과를 종합적으로 평가하고 학습자가 더 집중 또는 심화 학습이 필요한 부분을 보여주기 위해 점수와 함께 피드백을 생성하는 것인데, 이러한 피드백에는 대화 숙련도, 문법 정확도, 어휘적 다양성 및 문법적 복잡성을 포함한 다양한 측정 지수가 포함될 수 있다.
그림 4. 대화처리 및 언어교육 기술
그림 5. 영어 말하기 학습 앱 예시
한국전자통신연구원은 인공지능의 중요한 분야인 음성인식 및 자연어 처리 원천기술을 30년 이상 연구 개발하며 항상 세계 최고 수준의 기술력 유지를 위해 노력해 왔다. 또한 그 핵심적인 응용으로써 영어 말하기 학습 기술은 현재까지 다양한 기업 및 교육기관에 기술이전 되어 공·사교육 현장에 적용 중이거나 적용 예정이다. 그림 5는 이러한 영어 말하기 학습 기술의 프로토타입으로써 (ㄱ) 다양한 수준의 회화 연습이 가능하고, (ㄴ) 학습자의 발음 수준을 제시하며, (ㄷ) 학습자들이 모여서 토론 학습이 가능하도록 지원하고 있다. 이 프로토타입은 2018년 서울시내 주요 중학교를 대상으로 시범 서비스를 수행하여 일반적으로 학습자들의 영어 말하기 학습에 도움이 됨을 증명한 바있다.
2019년 7월 교육부는 초등생 영어교육 내실화 계획의 일환으로 ‘AI 영어 말하기 연습 시스템’을 공교육에 도입한다고 발표하였으며, 지난해 개발을 시작하여 올해 4월 전국 주요 초등학교 4학년을 대상으로 시범 서비스를 수행하였고 올해 내로 2차 시범 서비스를 거쳐 2021년에는 전국 초등학교 교육현장에 이 시스템을 확산시킬 계획이다. 이러한 시스템에 따라 학생은 스스로 자기주도 학습을 통해 영어 말하기 실력을 고양할 수 있게 될 것으로 기대하고 있다. 인공지능 기반의 영어 말하기 학습 기술은 앞으로도 발전에 발전을 거듭하여 컴퓨터가 학습자의 발성을 이해하고 원어민 교사를 대신하여 학습자의 회화 연습을 주도 하는 수준으로 발전할 것으로 예상된다. 아직은 기술 성숙도가 낮아서 온전히 원어민을 대신하는 자유로운 대화 환경 구축이 어렵지만, 장기적으로 이러한 기술이 공교육 및 사교육 환경에서 우리 사회가 겪고 있는 영어 격차 문제와 막대한 사교육비 경감에 기여하는 사회문제 해결형 기술이 될 것으로 예상하고 있다.
글/박전규 복합지능연구실장
한국전자통신연구원 인공지능연구소
KIST, ETRI, L&H Korea, Carnegie Mellon University, 동아시테크 등 다양한 산·학·연에서의 근무 이력을 거쳐 현재는 ETRI에서 인공지능 원천기술을 연구하는 복합 지능연구실을 맡고 있다. 원천기술 개발 및 사업화 공로로 다양한 정부 포상을 받은바 있으며, 특히 본고 관련된 비정형 자연어 음성인식 및 비원어민 발음 평가 개발·사 업화 실적에 대해 2020년 국가연구개발 우수성과 100선에 정보·전자 분야 최우수 기술로 선정되는 데 기여했다.