필자는 ‘인공지능은 의료의 미래를 어떻게 혁신하는가’ 시리즈를 통해서 의료 인공지능을 아래와 같이 크게 세 가지 유형으로 나눈 바 있다.
- 복잡한 의료 데이터를 분석하여 의학적 통찰력을 도출하는 인공지능
- 이미지로 나타낼 수 있는 의료 데이터를 분석 및 판독하는 인공지능
- 연속적인 의료 데이터를 모니터링하여 질병을 예측 및 예방하는 인공지능
이 시리즈에서 의료 인공지능의 두 번째 유형인, 의료 영상을 분석 및 판독하는 인공지능으로 유방촬영술(mammography) 엑스레이 판독, 당뇨성 망막병증 판독을 위한 안저 사진 분석, 피부암 사진 판독, 병리과 조직 검사 데이터의 판독 등에 대해서 자세하게 다루었다.
뷰노의 골연령 판독 인공지능
이번에 살펴볼 국내 인공지능 스타트업, 뷰노(VUNO)의 딥러닝 기반 골연령 판독 인공지능도 두 번째 의료 인공지능의 유형에 속한다. 기존에 의사가 시각적 인지 능력을 바탕으로 엑스레이 사진을 판독하던 것이기 때문이다. 뷰노는 서울아산병원과 공동 연구를 통해 2017년 12월 발표한 논문에서 골연령 판독 인공지능의 의사 대비 정확도와 임상 현장에서의 활용 가능성을 보여주었다. (Disclaimer: 필자는 뷰노의 자문을 맡고 있으며, 지분 관계가 있음을 밝힙니다)
흔히 성장판 검사라고 부르기도 하는 골연령(bone age) 검사는 말 그대로 뼈의 성숙도를 측정하기 위한 검사다. 부모들은 자녀의 키가 또래에 비해 크지 않을 경우 성장 클리닉 등을 찾는다. 출생 후 청소년기를 거쳐 성장판이 닫혀 성장이 완료될 때까지, 미성숙 뼈는 정해진 순서에 따라서 모양과 크기가 변화한다. 의사는 주로 대상자의 왼손의 엑스레이 사진을 찍어서, 화골핵(뼈발생 중심, ossification center)의 수와 크기, 골단부의 형태, 밀도 및 선명함 등을 종합적으로 판단하여 골연령을 판독한다. 이렇게 뼈의 성숙도를 측정하여 아이의 성장 발달이나 성조숙증 등을 진단하기도 한다.
골연령을 측정하기 위한 대표적인 방법 중 하나는 ‘그로일리히-파일(Greulich-Pyle)’ 방법이다. 이 방법은 쉽게 말해 책에 실린 표준 엑스레이 사진 중에 환자의 엑스레이 사진과 가장 비슷한 것을 찾아서 골연령을 결정하는 것이다. 이렇게 책과 비교를 하는 과정에서 의사별 역량이나 경험, 시각적 인지 능력의 편차가 있을 수 있고, 무엇보다도 반복적이고 판독에 적지 않은 시간이 소요되기 때문에 의사들이 번거로워하는 경우가 많다.
뷰노는 서울아산병원에서 그로일리히-파일 방법으로 골연령을 판독해놓은 18,940장의 엑스레이 사진을 딥러닝으로 학습하여 뷰노메드 본에이지(VUNO-Med Bone Age)라는 인공지능을 개발하였다. 이 인공지능은 엑스레이 사진을 분석하여 대상자의 골연령을 계산하고, 골연령 및 그에 맞는 그로일리히-파일 법의 표준 사진을 가장 확률이 높은 것부터 순서대로 보여준다. 즉, 기존에 의사가 책을 뒤지면서 가장 비슷한 사진을 찾던 과정을 인공지능이 대신해주게 되는 것이다. 의사는 이렇게 인공지능이 골라준 골연령과 표준 사진을 참고하여 대상자의 골연령을 최종적으로 결정할 수 있다.
연구진은 이 인공지능의 성능을 테스트하기 위해서 새로운 환자 200명의 골연령을 측정해보았다. 이 연구의 디자인은 상당히 흥미롭다. 먼저 인공지능의 정확도가 어느 정도인지 알기 위해서, 영상의학과 의사 두 명의 정확도와 비교했다. 한 명의 의사는 서울아산병원 영상의학과에서 소아 영상을 세부 전공하고 펠로우(fellow)로 근무하는 영상의학과 전문의로 500례 이상의 골연령 판독 경험이 있었다. 다른 한 명의 의사는 영상의학과 2년 차 레지던트로 기존에 소아 영상 판독 경험은 없었으나, 이번 연구를 위해 하루 동안의 판독 교육을 받고 20례를 판독해보았다.
이렇게 약간의 경력차가 나는 두 명의 의사는 각각 두 번의 세션에서 200명의 엑스레이 사진을 분석하였다. 첫 번째는 그로일리히-파일 방법에 기반하여 (즉, 책의 사진과 비교하면서) 판독하였다. 일주일의 시간이 흐른 뒤의 두 번째 세션에서는 같은 데이터에 대해 뷰노의 인공지능을 보조 도구로 참고하여 판독을 진행하였다.
이렇게 인공지능과 인간 의사의 골연령 판독 정확도를 평가하기 위해서는 ‘정답’도 필요하다. 이 정답은 경험 많은 소아 영상의학과 전문의 두 명 (각각 18년, 4년 경력)이 합의하여 결정했으며, 이 둘 사이에 결론이 나지 않으면 24년 경력의 세 번째 의사가 관여하여 결론을 내렸다.
영상의학과 의사와 인공지능의 시너지
먼저 뷰노의 인공지능을 통해서 200명의 환자의 골연령을 측정해보았더니 정확성이 매우 높았다. 인공지능이 내어놓는 세 가지의 답 중에 1등만을 비교하였을 경우 정답과의 일치율은 69.5%였다. 2등 답지까지 포함하면 정답률은 86.5%, 3등까지 포함하면 93%의 경우에 정답이 포함되었다. 또한 인공지능이 1등으로 내어놓은 골연령을 정답과 비교해보면 매우 높은 상관관계가 나타났다. 즉, 인공지능이 1등으로 도출한 답이 정답을 정확하게는 맞추지 못하는 경우라도 상당히 근접한 결과를 준다는 것을 의미한다.
인공지능의 결과와 정답간의 높은 상관관계
이러한 인공지능의 결과를 인간 의사 두 명의 정확성과 비교해보았더니, 인공지능의 실력이 더 높았다. 의사들이 책을 참고하여 판독한 첫 번째 세션의 정답률은 각각 63%, 49.5%으로 나왔기 때문이다. 그런데 흥미로운 것은 이 두 명의 의사가 인공지능의 결과를 참고하여 판독한 두 번째 세션의 결과이다. 이번에는 정답률이 각각 72.5%와 57.5%로 상승하였다.
단 두 명의 의사를 대상으로 하였기 때문에 무척 제한적이기는 하지만, 이 결과에서 우리는 인간 의사가 인공지능을 잘 활용하기만 한다면 충분히 시너지 효과를 낼 가능성이 있다는 것을 알 수 있다. 판독에 대해서 일정 수준의 훈련과 경험을 가진 첫번째 의사가 인공지능을 활용하여 판독하면 자기 혼자 64%) 혹은 인공지능 단독(69.5%)으로 판독하는 것보다, 더 높은 성과(72.5%)를 낼 수 있었기 때문이다. 반면 아직 충분히 훈련받지 못한 의사는 인공지능을 활용하더라도 (57.5%), 인공지능이 단독으로 판독한 정확도(69.5%)보다 못한 결과를 내었다.
이 연구에서는 영상의학과 전문의가 인공지능을 활용하면 정확성을 더 높일 수 있다는 것뿐만이 아니라, 더 나아가 골연령을 판독하는 데 걸리는 시간을 절감할 수 있다는 결과도 보여주고 있다. 두 명의 의사는 책을 기반으로 200명의 환자 데이터를 판독할 때는 각각 188분, 180분 정도가 걸렸다. 하지만, 인공지능을 보조적으로 활용하였을 때는 판독 시간이 154분과 108분으로 줄어들어 각각 18%와 40%에 해당하는 시간을 절약할 수 있었다.
골연령 판독에서 인공지능을 활용하면 총 판독 시간의 절감할 수 있다
유튜브에 소개된 뷰노의 본에이지 솔루션 소개 영상에는 서울아산병원 영상의학과의 이진성 교수(이 논문의 저자 중 한 명이기도 하다)가 기존에는 골연령 판독에 5분이 걸렸으나, 인공지능을 활용하면 5초 정도로 줄었다고 소개하고 있기도 하다. 이러한 부분을 고려할 때 인공지능을 활용하여 판독 시간을 단축하는 정도에도 개인차가 있을 것으로 예상한다.
이렇게 의료 현장에서 격무에 시달리는 의사들의 시간을 절약해줄 수 있다는 것은 매우 중요하다. 특히 골연령 판독과 같이 반복적이고 시간의 소모가 크기 때문에 의료진들이 번거로워하는 업무라면, 의사들도 이러한 인공지능의 도입을 반기지 않을 이유가 없다. 사실 이렇게 데이터 판독에 들어가는 시간을 절감할 수 있다는 것은 우리가 논의했던 ‘인공지능은 의사를 대체하는가‘의 이슈에서도 중요한 역할을 했다. 인공지능이 의사를 완전히 대체하지는 않는다고 하더라도, 데이터를 분석하는 시간을 크게 줄일 수 있다면 같은 양의 문제를 해결하는 데 필요한 의사의 총수는 줄어들 수밖에 없기 때문이다.
필자가 이 글을 작성하고 있는 2018년 3월 말 기준으로, 아직 국내에서는 딥러닝 기반의 의료 인공지능이 식약처 의료기기 인허가를 받은 곳은 없다. 다만, 작년 인공지능 의료기기에 대한 식약처 인허가 가이드라인이 발표되면서, 뷰노, 루닛 등의 스타트업에서 선도적으로 의료기기 인허가를 득하기 위한 임상 시험을 시작하였다. 이에 따라, 늦어도 2018년 상반기에는 국내에서도 식약처의 인허가를 받은 딥러닝 기반의 의료 인공지능이 나올 것으로 예상하고 있다.
사실 그 후보 중의 하나가 바로 이번 포스팅에서 소개한 뷰노의 골연령 판독 인공지능이다. 2월 초의 한 기사에도 보고된 것처럼, 뷰노는 최근 임상 시험을 마무리하고 식약처에 의료기기 2등급 허가 최종 보고서를 제출했다. (기사에서 언급했던 것과 달리 3월 초에 허가를 획득하지는 못했지만) 국내 최초로 허가 받은 딥러닝 기반의 의료 인공지능이 등장할 날도 그리 멀지 않은 것으로 보인다.