디지털 혁신



 

인공지능은 이미 대중화됐다. 거의 모든 비즈니스에서 AI를 활용한 서비스, 고객경험 혁신이 만들어지고 있다. 관건은 인공지능 인력이 항상 부족하다는 점이다. 대학에서 인재 양성이 활발히 이뤄지고 있으나, 기업의 수요를 따라가기에는 턱없이 부족하다. 산업계에서 기존 인력을 재교육하여 인공지능 전문가로 양성할 수밖에 없는 구조다. 그래서 요즘 인공지능 전문가에게 요구되는 역할을 정확히 정의하고 이에 맞춘 교육을 진행해야 한다. 최근 산업계에서 주로 활용되는 인공지능의 핵심 업무가 모델링에서 데이터 활용으로 바뀌고 있기 때문이다.

 

모델 중심의 인공지능

2021년 7월 16일 페이스북 AI 리서치(現 메타 AI)가 이전보다 한 단계 더 발전한 AI 챗봇인 ‘블렌더봇 2.0(BlenderBot 2.0)’을 공개했다. 블렌더봇 2.0은 사람과 나눈 과거 대화를 기억해서 지금 대화에 반영할 수 있는 장기기억을 갖고, 실시간 인터넷을 검색해서 대화에 사용할 수 있는 기능을 보유했다. GPT-3나 블렌더봇 1.0 같은 이전의 챗봇 모델은 사람과 자유로운 대화가 가능했지만 기억력이 없어서 매번 같은 말을 물어보는 일이 빈번했고, 새로운 지식을 넣어주려면 모델을 재학습 시켜야 했다. 그런데 블렌더봇 2.0은 장기기억을 갖고 대화 상대를 개별적으로 저장해서 사람마다 맞춤형 응대가 가능하다.

모델의 구조는 대화 히스토리, 장기기억, 인터넷 검색이 서로 결합돼 대화를 생성하도록 만들어졌다. 사람과의 대화 결과는 인코더와 메모리 디코더를 거쳐서 장기기억에 저장된다. 사람과 대화를 하게 되면 블렌더봇 2.0의 쿼리 생성기는 인터넷 검색과 장기기억에 저장된 관련 정보를 찾고, 이 정보를 인코더에 입력, 여기서 나온 출력 결과를 하나로 합친 후에 디코더를 통해 최종 대화를 생성한다.

블렌더봇 2.0은 지금까지 나온 챗봇 모델 중에 인간의 언어 사용 능력에 가장 가깝다고 평가된다. 필요한 정보와 새로운 지식이 생겨날 때마다 모델을 재학습 시키는 수고를 덜 수 있으므로 사용도 편리하다. 이처럼 자연어처리 분야의 인공지능 모델은 최근 급속도로 발전하고 있다. 2017년 구글의 트랜스포머(Transformer)가 공개된 후, 버트(Bert), 미나(Meena)로 개선되면서 대화 성능이 좋아졌다. 또 모델의 규모도 급속도로 거대해져서 최근 자연어 처리 모델은 대부분 하이퍼스케일 급으로 발전했다. 블렌더봇 2.0이 나오기 전까지 최고로 평가 받았던 오픈AI 연구소의 GPT-3(2020년 공개)는 570GB 규모의 텍스트인 3,000억개의 말뭉치를 학습시켰고, 1,750억개의 파라미터를 지닌 거대 모델이다. 2018년 공개된 GPT-1은 1억 1,700만 개의 파라미터, GPT-2는 15억개의 파라미터를 보유, 모델의 규모가 2년만에 1,000배 이상 커졌다. 중국 화웨이는 2천억개의 파라미터를 갖춘 자연어 처리 모델을 공개했고, 한국어를 집중 학습시킨 네이버의 하이퍼클로바 모델은 2040억개의 파라미터를 활용한다고 알려졌다.

이처럼 챗봇, AI스피커, 번역 등에 활용되는 자연어처리 기술의 발전을 보면 인공지능 분야에서 모델이 핵심이라는 생각을 갖기 쉽다. 그러나 대부분의 비즈니스에서는 문제해결을 위해 수천억 개의 파라미터를 가진 거대 모델이 필요하지 않다. 오히려 이런 거대 모델들은 학습, 활용, 재학습에 시간이 많이 들어 사용성이 떨어진다. 이제 인공지능은 기술을 실제 실무와 서비스에 지속 활용할 수 있어야 한다.


 

모델 중심에서 데이터 중심의 인공지능으로

블렌더봇 2.0 공개 소식이 전 세계 언론에 보도되는 것을 보면 인공지능에서 모델이 중요한 것 같다. 하지만, 대부분의 비즈니스에서 활용되는 인공지능에서 모델 개선은 한계에 다다랐다. 이제는 인공지능 솔루션의 성능을 높이려면 데이터를 개선해야 한다.

구글 브레인을 이끌고 코세라를 설립한 인공지능 분야의 대가인 앤드류 응(Andrew Ng) 박사가 작년 3월 딥러닝AI를 통해 전 세계 AI 전문가들과 대담을 나눴다. 여기서 모델 중심의 인공지능이 저물고 데이터 중심의 인공지능 시대가 도래했다고 말했다. 그는 철강제품 제조업체와 진행한 인공지능 프로젝트의 사례를 들었다. 응 박사와 연구진들은 영상인식 기술을 활용해 강판의 표면 불량을 판정하는 기술을 개발했다. 최소한 90% 이상의 정확도를 목표로 모델을 개발했는데, 초기 모델의 정확도는 76.2%였다. 이 모델을 개선하기 위해 두 팀으로 나눠, 한 팀은 모델을 개선했고, 다른 팀은 데이터를 개선했다. 모델 개선 팀은 더 나은 알고리즘을 쓰거나 최적 알고리즘을 섞어서 사용하는 방법을 썼고, 데이터 개선 팀은 데이터 라벨링을 수정했다. 그 결과 모델 개선으로는 정확도가 하나도 증가하지 않았는데, 데이터 개선을 통해서는 정확도가 16.9%p 상승했다. 이후 비슷한 방법을 태양광 패널의 불량을 찾는 프로젝트와 또 다른 제조업체의 제품 표면 불량 감지 프로젝트에 적용했다. 결과는 비슷했다.

모두 모델 개선을 통해서는 성능이 별로 높아지지 않았는데, 데이터를 개선했을 때 더 나은 결과를 얻었다.

그러면 데이터를 개선한다는 게 구체적으로 어떤 의미인지 알아보자. 이는 인공지능 개발과 활용, 재학습 전 과정에 걸쳐, 일관된 원칙으로 데이터 라벨링을 함으로써 고품질의 데이터셋을 만든다는 뜻이다. 가령, 음성인식 솔루션을 개발할 때 음성에 대응하는 텍스트를 태깅한 후 음성 데이터와 텍스트 데이터를 쌍으로 저장해서 인공지능이 학습하도록 한다. “음. 오늘 날씨가 좋네요” 라는 음성을 라벨링할 때, 어떤 사람은 “음, 오늘 날씨가 좋네요”라고 태깅하고, 다른 사람은 “음… 오늘 날씨가 좋네요.”라고 붙이고, 또 다른 사람은 “오늘 날씨가 좋네요.”라고 라벨링할 수 있다. 인공지능 학습용 데이터 구축 시에 이런 일이 아주 빈번하게 일어난다. 그러면 컴퓨터는 이 세 가지 데이터를 모두 다른 의미로 이해한다. 이 세 가지 방식 중 어느 것을 써도 되지만 한 가지 방식을 채택했으면 끝까지 그 원칙을 지켜서 라벨링 해줘야 한다. 영상인식 모델 개발에서도 도마뱀 두 마리가 섞여 있는 사진에 바운딩 박스를 친다고 할 때, 어떤 사람은 두 마리를 합쳐서 하나의 경계를 표시하고, 다른 사람은 두 마리 각각 경계를 표시하되 겹치지 않도록 하고, 또 다른 사람은 두 마리 각각 경계를 표시하되 경계가 겹치도록 할 수 있다. 이 방법 역시 어떤 방법을 쓰더라도 일관성을 지켜야 한다.


 

이처럼 일관성을 지키며 순도 높은 데이터셋을 구성하면 데이터 수가 작아도 인공지능 성능을 높일 수 있다. 앤드류 응 박사는 라벨링이 일관되지 않은 데이터, 즉 노이즈가 들어간 데이터 12% 보유한 데이터셋을 가지고 실험을 했다. 500개의 데이터 중 12%인 60개의 데이터를 일관성 있는 데이터로 고친 후 성능 향상을 측정했고, 다른 곳에서는 똑같이 12%의 노이즈가 들어간 데이터의 수를 늘려나가면서 모델의 성능 향상을 조사했다. 그랬더니 데이터를 수정하는 게 효율적일 수 있다고 판단됐다. 60개의 데이터를 수정해서 올라간 성능만큼 모델을 개선하려면 1500개의 데이터가 필요한 것으로 나타났다. 비즈니스에 따라서 빅데이터를 쉽게 얻을 수 있는 분야에서는 데이터 수를 늘리는 게 더 효율적일 수 있지만, 데이터를 얻는 것이 비용이 많이 드는 분야도 많다. 그러므로 학습용 데이터셋을 만들 때부터 일관성을 유지해서 고품질의 데이터를 만드는 게 좋다.

그런데 이것이 말처럼 쉽지 않다. 많은 기업이 학습용 데이터를 구축할 때 크라우드 워커를 활용한다. 수많은 크라우드 워커가 모두 똑같은 기준을 가지고 라벨링을 할 가능성은 없다. 우리 정부에서도 매년 수천억 원 규모의 인공지능 학습용 데이터셋 구축 사업을 통해 공공 데이터를 만들고 있는데, 데이터 품질이 기대만큼 나오지 않는다는 게 문제다. 수십만 명이 참여하는 프로젝트에서 데이터 라벨링의 일관성을 확보하기가 쉽지 않기 때문이다.


 

요즘 인공지능 전문가의 역할

데이터 개선을 통해 모델의 성능을 개선하는 데이터 중심의 AI 시대에 인공지능 전문가의 가장 중요한 역할은 인공지능 프로젝트 전 사이클에 걸쳐 순도 높은 데이터를 구축하는 것이다. 크라우드 워커에 의존할 수밖에 없는 기업은 데이터 검수 프로세스를 시스템화하는 것도 한 방법이다. 비용이 더 들더라도 두 사람의 크라우드 워커가 라벨링을 하게 하고, 라벨링이 서로 다른 경우에 검수자가 일관된 원칙을 정해서 적용하는 것이다.

흔히 의료계에서 인공지능 데이터셋을 만들 때 이런 방법을 사용했다. 암 가능성 있는 환자의 사진에 나타난 증상을 라벨링을 한다고 했을 때, 의사마다 견해가 다를 수 있다. 궤양화, 종양, 염증, 모자이크화, 반점 등 각 증상의 경계에 해당되는 경우 의사마다 다르게 해석할 수 있다. 서로 다른 결과가 나왔을 때 선임 의료진이 참여하여 토론을 통해 증상을 확정하는 방식으로 의료 데이터를 구축했다.

그러므로 이제 인공지능 전문가를 양성할 때 교육의 핵심이 알고리즘과 모델링은 물론이고 인공지능 프로젝트 전반을 이해하고 이를 관리할 수 있는 인재를 기르는 것이 핵심이 돼야 한다. 필자가 대표로 있는 알고리즘랩스의 기업 인공지능 전문가 양성 프로그램도 인공지능 프로젝트를 리드할 수 있는 인재를 만드는 것이 주된 목적이다. 그래서 인공지능 기획부터 데이터 구축과 모델 개발 등 인공지능 프로젝트 전 주기를 관리할 수 있는 역량을 익히는 게 핵심이다.


 

데이터 중심의 인공지능 시대에 인공지능 전문가의 역할은 인공지능 개발, 활용, 모니터링 전 과정을 데이터의 일관성을 가지고 관리하는 것이다. 그래서 인공지능 수명주기 전 과정이 고객 불만 없이 빠르게 돌아가도록 해야 한다. 핵심은 인공지능 개발과 활용 전 과정에서 데이터의 일관성을 유지하는 것이다. 데이터 확보 과정에서 일관성을 어떻게 유지할지, 이후 재학습에서도 이런 원칙을 시스템적으로 지켜나갈 수 있는지, 그 방법을 고민하는 것이 인공지능 전문가의 핵심적인 역할이 돼야 한다. 그리고 이에 걸맞은 전문가 양성이 이뤄져야 한다.