01 - 의료 인공지능 개발 및 사업화 사례
▲ 정규환 기술이사(CTO) (주)뷰노
풍부한 데이터와 연산자원, 그리고 빠르게 성능과 효율성이 개선되는 알고리즘들을 기반으로 한 인공지능 기술이 의료 전반에 빠르게 도입되고 있다.
의료 인공지능의 여러 개발 사례들과 사업화 사례를 통해 의료 인공지능의 가능성과 해결해야 할 과제들에 대해서 논의해 보고자 한다.
의료에서 인공지능이 필요한 이유
의료에 있어 데이터 분석을 통한 최적의 진단이나 처방의 중요성이 커지고 있다.
하지만 다양한 의료기기와 병원의 정보시스템의 발전에 따라 생성되고 저장되는 의료데이터의 양은 폭발적으로 증가하고 있어 IBM의 추정에 의하면 2020년에는 의료진이 활용 가능한 데이터양의 200배 이상이 수집될 것으로 예상하고 있다.
이러한 데이터 급증에 반해, 의료진의 부족 현상이 가속화될 것으로 예상된다.
미국의과대학협의회(AAMC, Association of American Medical College)에 의하면 2030년까지 미국에서 10만 명의 의사부족이 예상되며, 한국보건사회연구원에 따르면 우리나라의 경우도 2030년까지 의사가 7,600명가량 부족할 것으로 예상하고 있다.
이러한 의사 부족 현상은 공간적, 시간적으로도 매우 큰 편차를 가지고 있다.
예를 들어 우리나라와 인구규모가 비슷한 케냐의 경우 의료영상을 전문적으로 판독하는 영상의학과 전문의의 총 숫자가 200명이 되지 않는데 반해 미국 보스턴의 매사추세츠 종합병원의 경우에는 단일 병원에 130명가량이 근무하고 있다.
시간적으로 보면 우리나라에서도 심야시간대에 응급 판독을 전문적으로 수행하는 응급 판독 전문의는 10명밖에 되지 않아 전체 영상의학 전문의 3,700명의 0.27%에 불과하다.
그래서 해당 전공이 아닌 전공의가 판독하게 되거나 전문의가 출근하는 시간까지 판독이 지연되면서, 뇌졸중이나 심혈관 질환과 같이 진단에 걸리는 시간과 정확도가 예후에 치명적으로 작용하는 경우에 대한 위험성이 남아 있다.
의료진이 판독할 수 있는 환경이 갖춰진다고 하더라도 여전히 의료진 간의 판독에 대한 일관성에 문제가 생길 수 있다.
구글이 조사한 바에 따르면 당뇨 합병증으로 실명하게 되는 주요 원인 중 하나인 당뇨성 망막병증은 안과 전문의들이 중증도에 대한 일치율이 60%, 동일 전문의의 반복 판독에 대한 일치율이 65% 수준에 그치고 있다.
특히, 특정 환자에 대해서는 각 전문의의 지식과 임상 경험에 따라 완전한 정상부터 가장 심각한 증식성 망막병증까지 모든 중증도에 대한 판독 결과가 나타날 정도로 일관적이지 못하다.
의료 데이터가 가진 불확실성과 모호성으로 인한 판단의 낮은 일관성을 해결할 방안이 요구되는 상황이다.
최근 들어 영상, 음성, 자연어 인식 등 여러 분야에서 있어 정확도와 효율성의 급속한 발전이 이뤄지고 있는 인공지능, 특히 딥러닝 기술이 의료 분야에 활발하게 도입되고 있다.
딥러닝의 예측 일관성(Consistency), 시간과 공간의 제약을 받지 않는 확장성(Scalability), 그리고 인간의 정확도에 준하는 정확성(Accuracy)을 강점으로 점차 다양하고 복잡한 의료 데이터 분석 및 진단 보조 솔루션에 대한 연구개발이 활발하게 이루어지고 있다.
의료 인공지능의 연구 사례
딥러닝 기반의 의료데이터 분석의 경우 현재까지 의료 영상 분석에서 가장 많은 연구 결과들이 발표되고 있으며, 병변의 탐지 및 정량화, 병변의 분류 문제 등에서 의사들의 진단 및 판독 능력에 준하거나 이를 넘어서는 결과들이 속속 등장하고 있다.
예를 들어 구글은 2016년에 의료 분야의 가장 권위 있는 학술지 중 하나인 미국의학협회저널(JAMA, Journal of the American Medical Association)에 안저 영상을 기반으로 당뇨성 망막병증을 안과 전문의보다 정확하게 진단하는 딥러닝 모델을 발표하여 주목을 받았으며, 스탠퍼드 대학에서는 피부 사진을 이용하여 피부암을 피부과 전문의보다 정확하게 탐지하는 결과를 네이처(Nature)표지 논문으로 발표하였다.
구글은 2차원인 안저 영상 분석에서 한발 더 나아가서 자회사인 딥마인드를 통해 3차원 영상인 빛 간섭 단층촬영(OCT)으로부터 다양한 안과적 비정상 영역을 딥러닝 모델로 정확하게 분할해 내고, 이를 기반으로 복수의 안과질환을 안과전문의보다 정확하게 판별하는 방법을 네이처 메디슨(Nature Medicine)에 발표하여 임상현장 활용에 적합한 기술로 평가받고 있다.
최근에는 이러한 병변의 탐지나 진단 외에도 의료 영상의 품질을 개선하거나 새로운 정보를 추출해 내는 곳에 딥러닝이 활발하게 사용되고 있다.
단순히 기술적인 관점이 아니라 환자나 병원의 입장에서 고통과 비용을 줄여주거나 운영 효율성을 향상해 주어 임상적 가치나 유효성이 큰 결과들이 발표되고 있다.
예를 들어 방사선단층영상(CT)영상의 경우에는 환자가 방사선에 노출되게 되므로 방사선량을 줄이는 것이 중요한데 이때 방사선량이 부족하면 반대로 영상의 품질이 떨어져 판독의 정확도가 낮아진다는 문제가 있다.
이때 적대적 생성적 신경망(GAN, Generative Adversarial Network)를 이용하여 저선량의 CT영상을 일반 선량의 CT영상으로 변환하는 모델을 학습하면, 결과적으로 방사선량을 줄이면서도 일반 선량 품질의 영상을 얻을 수 있다는 결과가 발표되었다.
자기공명영상(MRI)의 경우에는 촬영에 수십 분이 소요되어 고정된 자세로 밀폐된 공간에 있어야 하는 환자의 입장에서의 고통과 병원의 운영 비용측면에서 비효율성이 존재한다.
MRI영상의 재건(Reconstruction)을 위해 필요한 원본 데이터라고 할 수 있는 k-공간 데이터의 일부만 얻어 내고, 이로부터 원본의 품질에 가깝게 변환하는 딥러닝 모델을 학습함으로써 영상의 품질을 희생하지 않고 촬영 시간을 획기적으로 감소시키는 방법들도 발표되고 있다.
의료영상뿐 아니라 문서나 수치형태의 전자의무기록, 혹은 시계열의 생체신호 분석에서도 딥러닝 기술이 활발하게 적용되고 있다.
구글에서는 전자의무기록에 기록된 다양한 환자 정보를 바탕으로 재입원이나 원내 사망과 같은 중요 이벤트들을 예측하는 딥러닝 기술을 디지털 메디슨(Digital Medicine)에 발표한 바 있으며, 뷰노에서는 호흡, 맥박, 산소포화도, 체온 등의 정보를 바탕으로 심정지를 최대 24시간 전에 예측하여 적절 시점에 조치를 취할 수 있게 하는 알고리즘을 심장전문지인 미국심장협회지(JAHA, Journal of the American Heart Association)에 발표하였다.
기존에 널리 이용되는 방법들은 대부분 단순한 생체 신호 단위의 점수제를 이용하고 있어, 시계열적 특징이나 생체 신호 간의 상호작용을 반영하지 못한다.
그래서 상태 발생에 대한 예측 민감도(Sensitivity)가 낮고, 특히 동일 민감도에 대해서 위양성율(False Positivie Rate)이 높아 활용도가 떨어진다는 단점이 있다.
최근 들어 국내에서도 응급 대응팀에 대한 수가를 신설하고 심정지나 패혈증과 같은 치명적인 상태를 조기에 대응하도록 권고하고 있는데, 다양한 생체 신호를 종합적으로 분석하여 민감도가 높고, 특히 위양성율을 대폭 감소시키는 이러한 딥러닝 기반 방법의 임상적 도입과 활용이 기대되는 상황이다.
의료 인공지능의 사업화 사례
의료데이터 분석을 통해 진단과 처방을 보조하는 솔루션들은 관련법상 의료기기로 분류되고 있다.
따라서 임상에 도입되기 위해서는 임상적 안정성과 유효성을 검증하기 위한 임상시험을 거처 식약처 승인을 받아야 한다.
전 세계적으로 미국 FDA가 인구 노령화에 따른 의료비의 증가 및 의료진 부족 현상에 대한 대안으로 가장 전향적인 정책을 펼치고 있으며, 2012년부터 기계학습 기반의 진단보조 소프트웨어에 대한 가이드라인을 개발해 왔다.
이에 따라 2017년 1월에는 세계 최초로 딥러닝을 이용한 클라우드 기반 의료영상 정량화 소프트웨어인 아터리스(Arterys)의 Cardio DL이 FDA의 승인을 받았으며, 2018년 4월에는 세계 최초로 의료진의 개입 없이도 환자의 중증도에 따라 전문의 상담을 권고해주는 인공지능 기반 안저 영상 분석 솔루션이 FDA의 승인을 받았다.
미국 FDA는 이에 대해서 개별 의료기기가 아닌 의료기기 제조사에 허가를 주는 사전 인증(Pre-cert)프로그램을 시작하여 여러 회사들이 참가했고, 암진단을 위한 영상의학 의료기기의 등급을 하향 조정하여 인허가 절차를 간소화하는 등의 전향적인 변화를 추구하고 있다.
또한, 개별 의료기기의 개발과 병행하여 의료진단 보조 솔루션들의 플랫폼을 지향하는 EnvoyAI나 Nuance사의 PowerShare와 같은 솔루션들이 등장하고 있는데, 이는 개별 의료기기의 공급 채널을 일관화, 대형화하고자 하는 시도로서 많은 인공지능 기반 의료 소프트웨어 개발 회사들이 참가해서 솔루션들 간의 통합 및 시너지를 추구하고 있다.
국내에서는 2016년부터 식품의약품안전처(이하 식약처)를 중심으로 인공지능 기반 의료기기에 대한 논의가 시작되었으며, 2017년에 “빅데이터 및 인공지능 기술이 적용된 의료기기의 허가 심사 가이드라인”이 발표되면서 인공지능 기반 의료기기의 품목별 등급이 정의되었다.
이어 “인공지능 기반 의료기기의 임상 유효성 평가 가이드라인”이 발표되며 임상적 유효성을 평가하기 위한 근거와 절차가 마련되었다.
이를 토대로 인공지능 기반 의료데이터 분석 및 진단보조 솔루션 개발업체인 뷰노는 국내 최초로 소아 골연령 진단 보조 솔루션인 “뷰노메드 본에이지”에 대한 임상시험을 거쳐 식약처 승인을 획득하였다.
현재 미국과 유럽 외에는 전 세계적으로 규제기관의 승인을 받은 사례가 드물고, 특히 중국과 일본의 경우 최근 들어서야 인공지능 기반 의료기기에 대한 가이드라인을 마련하는 상황임을 감안할 때, 상대적으로 빠른 상용화 사례로 볼 수 있다.
현재는 루닛의 “루닛 인사이트”와 JLK의 “JBS-01K” 제품이 추가로 판매 허가를 받았으며, 향후 인공지능 기반 의료기기의 식약처 승인 및 상용화 사례가 꾸준히 증가할 것으로 기대된다.
의료에서 인공지능의 활발한 도입을 위해 남은 과제
의료 인공지능이 본격적으로 임상현장에 도입되어 사용되기 위해서는 여전히 해결해야 할 문제들이 남아있다.
기술적으로는 현재 인공지능 기술의 핵심으로 사용되고 있는 딥러닝 모델의 예측 결과에 대한 설명력에 대한 불확실성에 대한 정량화, 그리고 적대적 데이터에 대한 대응 및 보안과 관련된 이슈들이 남아 있으며, 여전히 인공지능 기반의 의료 솔루션들의 다양성이 낮고 기존 병원 시스템과의 통합과 연계 수준이 낮다는 한계가 있다.
규제적인 개선도 여전히 필요한데 국내는 의료기기 허가, 신의료기술평가, 보험급여 결정과 같은 다단계 과정을 거쳐야 하며, 이를 위한 비용과 시간 등의 노력이 매우 큰 편이다.
또한 단일 보험체계에서 신의료기술평가를 통과하여 수가를 인정받을 수 있는지가 인공지능 의료기기의 도입과 사업적 성과를 결정하게 되는 상황이므로 기술개발 이후에도 큰 불확실성을 떠안을 수밖에 없는 상황이다.
최근 보건복지부에서 의료 인공지능 솔루션의 역할이 의료진의 편의성 개선이나 병원 생산성 향상에 그친다면 건강보험을 적용하지 않는 것이 원칙이라고 밝힌 바가 있다.
이 역시도 오진율의 획기적 개선이나 선별검사로의 효용 증대 등의 근거 마련을 필요로 하는 것으로서 장기간의 연구와 추적관찰이 필요하게 되어 단기간에 활발한 임상 도입과 상용화가 쉽지 않을 것임을 예상하게 한다.
의료데이터 급증에 비해 이를 처리할 의료진의 부족으로 인공지능 기술의 필요성이 커지고 있다.
규제개선과 공공의 투자를 통해 인공지능 의료기기들이 활발히 도입될 수 있는 환경을 조성하고, 연구개발 인력들이 꾸준히 육성됨으로써 국내 기업들과 의료기관들이 의료 인공지능 분야의 선도적인 위치를 차지하여 국민건강과 삶의 질 향상에 기여할 수 있기를 기대해 본다.