NLP를 통한 연구개발로
미래 동력 키운다

 

 

NLP를 통한 R&D 가치 창출

R&D 생애 과정은 최소 몇 년에서 최대 몇 십 년이 걸리는데 이 과정에서 자연어 처리(NLP, Natural Language Processing)를 통해 가치를 창출할 수 있는 다양한 텍스트 데이터가 단계별로 산출되고 연결되어 축적된다.

Dimensions01는 R&D 과정에서 생성되는 모든 결과물을 데이터베이스로 구축하여 R&D 종사자 누구나 접근이 가능하도록 공개하고 있다. 과거 파편적으로 구축되어 사일로(Silo) 형태로 축적되던 다양한 연구 결과물을 최신 데이터 과학기술을 적용하여 이를 상호 연결시켜 R&D 연구 동향은 물론, 핵심 논문, 연구기관, 논문 저작자 식별을 용이하게 함으로써 글로벌 협업을 가속시켜 R&D 성과물이 시장에 조기 출시되는 것도 돕고 있다.

01 https://www.dimensions.ai/

 

연구 생산성을 높여주는 NLP를 활용한 R&D

NLP는 비전 기술과 함께 인공지능의 중요한 한 축을 담당하고 있으며, 텍스트 분류 및 요약, 문서 유사성 측정, 자연어 텍스트 생성, 번역, 음성 인식 등 다양한 세부기술을 아우르고 있다. NLP 기계모형이 장착된 과학기술 RPA는 논문과 보고서 내용을 수집, 이해, 해석하여 문서에 담긴 핵심 사항을 식별하는 것은 물론이고, 논문 제작과정에도 도움을 주어 연구원이 제작한 연구 성과물과 비교하여 차이가 없거나 경우에 따라서는 더 좋은 성능을 보여주고 있다.

NLP 기능이 탑재된 기계가 연구원을 도와 논문을 분석하고 연구원의 질문에 대해 즉각적인 대답을 제시함으로써 연구개발 과정에서 낭비되는 불필요한 시간 소모를 줄이는 것은 물론, 연구원이 일상적으로 작성하는 일반 행정 문서를 자동 생성 및 검증하여 연구 개발에 더 많은 시간을 투여할 수 있도록 진화하고 있다. 특히 단어와 구문, 토픽(Topic)을 통해 추출한 정보를 네트워크 시각화 분석과 결합하여 제시할 경우, 문제 상황에 대한 정확한 상황 파악과 향후 연구 방향을 예측하는 데 도움을 줄 수 있다.

 

코로나19 시대, NLP를 활용한 R&D 사례

코로나19 팬데믹으로 인해 이와 관련된 논문이 지난해 1분기에만 6만 건 넘게 쏟아졌다. 특히 신약 개발에 상당한 연구자금이 투자되지만, 대다수는 특별한 연구 성과 없이 버려지는 경우가 허다하다. 인공 지능이 성과를 내기 시작한 시점부터 화이자(Pfizer), 사노피(Sanofi), 호프만 라 로슈(Roche) 등 이름만 들어도 알 수 있는 다국적 거대 제약회사에서 인공지능, 특히 NLP 기술을 활용하여 저렴하지만 신속하고 효과적인 신약개발을 수행하고 있다. 특히 사노피는 특허, 임상실험, EHR, 인터넷 문서, 컨퍼런스 발표 논문 등을 수집 및 정제하고 정형화시켜 초기 신약개발, 유전자 질병 매핑, 목표식별과 우선순위 지정, 약물용도 변경 등 다양한 연구목표 달성에 NLP 텍스트 마이닝 기술을 활용하여 성과를 내고 있다.



글/이광춘 상무
KPMG

학사 및 석사는 통계학, 석사 및 박사는 컴퓨터과학을 전공하고 국내 유수 대학에서 데이터과학을 강의했다. 현재는 삼정KPMG 인공지능 개발조직 Lighthouse Center에서 기술개발을 총괄하고 있다. 서울 R미트업과 Tidyverse Korea 커뮤니티를 운영하고 있으며, 글로벌 RStudio Tidyverse, Software Carpnetry 국내 유일 강사로 활동하고 있다.

※ '전문 보기' 버튼을 누르시면 더 자세한 내용을 확인하실 수 있습니다.