인공지능은 이미 대중화됐다. 거의 모든 비즈니스에서 AI를 활용한 서비스, 고객경험 혁신이 만들어지고 있다. 관건은 인공지능 인력이 항상 부족하다는 점이다. 그래서 요즘 인공지능 전문가에게 요구되는 역할을 정확히 정의하고 이에 맞춘 교육을 진행해야 한다. 최근 산업계에서 주로 활용되는 인공지능의 핵심 업무가 모델링에서 데이터 활용으로 바뀌고 있기 때문이다.
모델 중심의 인공지능
2021년 7월 16일 페이스북 AI 리서치(現 메타 AI)가 이전보다 한 단계 더 발전한 AI 챗봇인 ‘블렌더봇 2.0(BlenderBot 2.0)’을 공개했다. 블렌더봇 2.0은 지금까지 나온 챗봇 모델 중에 인간의 언어 사용 능력에 가장 가깝다고 평가된다. 필요한 정보와 새로운 지식이 생겨날 때마다 모델을 재학습시키는 수고를 덜 수 있어서 사용도 편리하다. 이처럼 자연어처리 분야의 인공지능 모델은 급속도로 발전하고 있다. 챗봇, AI스피커, 번역 등에 활용되는 자연어처리 기술의 발전을 보면 인공지능 분야에서 모델이 핵심이라는 생각을 갖기 쉽다. 그러나 대부분의 비즈니스에서는 문제해결을 위해 수천억 개의 파라미터를 가진 거대 모델이 필요하지 않다. 오히려 이런 거대 모델들은 학습, 활용, 재학습에 시간이 많이 들어 사용성이 떨어진다. 이제 인공지능은 기술을 실제 실무와 서비스에 지속 활용할 수 있어야 한다.
모델 중심에서 데이터 중심의 인공지능으로
인공지능 솔루션의 성능을 높이려면 데이터를 개선해야 한다. 인공지능 분야의 대가인 앤드류 응(Andrew Ng) 박사는 작년 3월 딥러닝 AI를 통해 전 세계 AI 전문가들과 대담을 나눴다. 여기서 모델 중심의 인공지능이 저물고 데이터 중심의 인공지능 시대가 도래했다고 말했다.
그러면 데이터를 개선한다는 게 구체적으로 어떤 의미일까. 이는 인공지능 개발과 활용, 재학습 전 과정에 걸쳐, 일관된 원칙으로 데이터 라벨링을 함으로써 고품질의 데이터셋을 만든다는 뜻이다. 이처럼 일관성을 지키며 순도 높은 데이터셋을 구성하면 데이터 수가 적어도 인공지능 성능을 높일 수 있다.
그런데 이것이 말처럼 쉽지 않다. 수십만 명이 참여하는 프로젝트에서 데이터 라벨링의 일관성을 확보하기가 쉽지 않기 때문이다.
요즘 인공지능 전문가의 역할
데이터 중심의 AI 시대에 인공지능 전문가의 가장 중요한 역할은 인공지능 프로젝트 전 사이클에 걸쳐 순도 높은 데이터를 구축하는 것이다.
필자가 대표로 있는 알고리즘랩스의 기업 인공지능 전문가 양성 프로그램도 인공지능 프로젝트를 리드할 수 있는 인재를 만드는 것이 주된 목적이다.
핵심은 인공지능 개발과 활용 전 과정에서 데이터의 일관성을 유지하는 것이다. 데이터 확보 과정에서 일관성을 어떻게 유지할지, 이후 재학습에서도 이런 원칙을 시스템적으로 지켜나갈 수 있는지, 그 방법을 고민하는 것이 인공지능 전문가의 핵심적인 역할이 돼야 한다. 그리고 이에 걸맞은 전문가 양성이 이뤄져야 한다.
'전문 보기' 버튼을 누르시면 더 자세한 내용을 확인하실 수 있습니다.