이번에 안과 관련 컨퍼런스에서 의료 인공지능을 주제로 세미나를 해야 해서, 안과와 관련된 인공지능 연구 결과들을 오랜만에 정리해보았습니다. 특히 구글은 지난 2016년 JAMA에 발표했던 중요한 연구 이후로도 흥미로운 연구들을 몇가지 발표했습니다. 많은 분들이 이미 아시겠습니다만, 2016년 JAMA 논문은 구글의 연구자들이 딥러닝을 이용하여 안저 사진에서 당뇨성 망막병증(DR)을 판독하는 인공지능을 개발하였으며, 이 인공지능의 정확도가 안과전문의들보다 더 정확하였음을 보여준 연구입니다. 이 연구에 대해서는 제 졸저에도 상세하게 소개되어 있고, 아래의 포스팅에도 소개되어 있습니다.
구글은 2018년과 올해 2019년에 이 논문의 후속 논문을 출판했습니다. 이 연구들은 제1저자, 제2저자는 다르지만, 교신저자는 동일하므로 같은 연구팀에서 진행한 것으로 봐도 무방합니다. 2018년에는 grader variability를 밝히고 reference standard 를 어떻게 하는 것이 좋은가… 를 주제로, 즉 인공지능을 이용한 인공지능 연구의 방법론에 대해서 논문을 출판하였는데, 이 논문이 무려 안과 분야의 대표적인 전문 학술지인 Ophthamology (IF=8.2)에 출판되었습니다.
사실 이 논문의 핵심 주제는 아니지만, 우리가 주목해야 할 한 가지 부분은 이 연구에서 2016년 JAMA 버전의 인공지능이 더 개선되었다는 점입니다. 더 많은 데이터로 새롭게 학습시켰고, hyperparameter도 새로 찾으면서, 입력하는 안저 이미지의 해상도도 높였고, 그리고 inception v3에서 v4로 아키텍처가 바뀌었습니다. 또한 ICDR에 맞게 DR 판독도 5단계로 하도록 했습니다.
그런데 이런 구글의 인공지능이 정말 실제 의료 현장에 도입된다면 효과가 있을까요? 이러한 질문에 대한 일부분의 답을 할 수 있는 논문을 구글이 올해 4월에 npj Digital Medicine에 발표했습니다. 바로 태국의 전국적인 DR 스크리닝 프로그램에 구글의 인공지능을 테스트한 것입니다. 왜 하필 태국을 골랐는지는, 태국의 의료 상황을 보면 나옵니다. 태국의 당뇨 환자는 4.5m 명에 이르지만, 태국의 안과의사는 총 1,500명에 불과하며, 그 중 망막 전문의는 고작 200명에 그칩니다. 더구나 그 중 절반은 수도인 방콕에 거주하고 있기 때문에 태국 전역에서는 안과전문의가 턱없이 모자랍니다. 즉, 인공지능의 보조가 필요한 환경인 것이지요.
이 논문에서는 총 25,326개의 태국인 환자들의 안저 사진을 테스트 데이터로 삼았습니다. 흥미로운 것은 구글의 인공지능과 비교대상이 된 것은 바로 실제 태국에서 안저 사진을 판독하는 의료인들이었다는 것입니다. 이 데이터는 총 13개 지역으로 구분된 지역에서 모은 것인데, 해당 지역을 실제로 담당하는 각 한 명의 안과의사 혹은 (안저 사진을 판독하도록 수련을 받은) 간호사 및 테크니션이 구글의 인공지능의 비교 대상이 되었습니다.
그 결과 mild, severe, proliferate, DME 등 대부분의 경우에 구글의 인공지능은 0.99 대의 AUC를 기록하며, 인간 판독자들보다 더 정확한 판독 실력을 보여주었습니다. 특히 13개 구역의 판독자들의 성적을 개별적으로 비교해보면, 특이도(specificity)는 인간 판독자와 구글 인공지능의 차이가 별로 나지 않았으나, 민감도(sensitivity)는 구글의 알고리즘이 유의미하게 좋았습니다.
구글의 인공지능이 인간 판독자들보다 DR 및 DME에 대한 판독 정확성이 더 높았음
인간 판독자들은 구글 인공지능과 특이도는 비슷한 수준이었으나, 민감도는 더 낮았음
이렇게 ‘인공지능이 인간 의료인보다 판독을 더 정확하게 잘 한다’는 결과 자체는 별로 새로울 것이 없습니다만, 이 논문의 의의는 현장의 real world clinical setting을 그대로 반영했다는 점이 특징입니다. 실제 지역에서 데이터를 판독하는 의사와 비교하였으며, 지역마다 안저 사진을 촬영하는 카메라의 브랜드도 달랐고 (총 6가지의 카메라), 인공지능이 학습한 데이터 (미국, 인도)와는 전혀 다른 태국의 인구에 대해서 테스트되었다는 의미가 있습니다.
하지만 이러한 데이터만으로 ‘인공지능이 현장에서 효과가 있다’는 것을 증명하기란 불충분합니다. 제가 강의에서도 많이 말씀드리지만, 이제는 인공지능이 단순한 퍼포먼스가 (인간만큼, 혹은 인간보다 더) 좋다는 것을 보여주는 것만으로는 부족하며, 임상적인 중요성(clinical impact)를 보여주는 것이 중요합니다. 예를 들어서, 태국에서 현장의 의료인들이 이 인공지능을 언제, 어떻게 활용해야 판독 정확성을 극대화할 수 있는지, 의사의 만족도와 환자의 만족도는 어떻게 되는지, 더 나아가서는 결국 환자의 치료 성과가 좋아지는지에 대해서 밝히는 것이 필요합니다. 구글도 이를 모르지 않아서, Discussion 파트에서 이러한 부분을 지적하고 있는 것을 보아서, 웬지 이미 구글이 이러한 연구도 진행하고 있을 것 같다는 짐작을 하게 합니다.