의료 인공지능 회사인 뷰노에서 최근 출간한 딥러닝 기반 흉부 엑스레이 영상 인공지능의 효용을 증명한 논문을 소개해드립니다. 이 논문은 영상의학 분야 최고 권위 학술지 Radiology 에 최근 출판되었습니다. 몇몇 언론 기사로도 보도되었습니다만, 저도 꼼꼼하게 읽어보고, 기억나는 것들을 정리해둡니다. (저는 뷰노의 자문이자 주주로 COI가 있습니다.)
이 논문을 통해 뷰노의 인공지능을 활용하면, 인공지능을 활용하지 않았을 때에 비해서 흉부 엑스레이 영상의 판독 성과가 유의미하게 좋아진다는 것을 증명했습니다. 결론만 본다면 예전의 연구들과 다를 게 없이 보일 수도 있겠지만, 세부적인 연구 디자인과 결과에서 주목해야 합니다. 이런 엄정한 디자인에 기반한 임상 연구가 거듭되어야 폭넓은 임상 현장 적용에 더 가까이 다가설 수 있습니다. Radiology라는 좋은 저널에 실릴 수 있었던 이유는 이런 연구 세부 디자인 등에서의 장점을 인정 받았기 때문이라고 생각합니다.
이 연구는 아래와 같은 측면에서, 기존의 연구들과 차별화되는 측면이 있습니다.
- Crossover study 디자인. 가장 큰 특징으로 논문 제목에서도 강조된다. 기존의 연구들은 대부분 sequential design을 따르고 있다. 즉, 순차적으로 판독하는 디자인에서는 직전에 판독했던 기억 등에 따라서 bias가 생길 수 있다. 그래서 이 연구에서는 판독 대상을 A, B 두 그룹으로 나눠서 (각각, n=114), 두 세션에 걸쳐서 교차로 판독했다.첫번째 세션에는 A그룹을 인공지능 없이, B그룹은 인공지능과 함께 판독하고, 두번째 세션에서는 반대로 A그룹은 인공지능의 보조를 받고, B그룹은 인공지능 없이 판독했다. 두 세션 사이에는 최소 2주의 washout 기간을 두었다. 이를 통해 기존 연구들이 가지던 bias를 최대한 줄였다.
- 다양한 폐 병변에 대해 분석했다. 기존의 흉부 영상 인공지능 관련 많은 연구들은 주로, 결절(nodule)의 유뮤를 보는 경우가 많았다. 하지만, 이 연구에서는 5가지 주요 병변 (nodules, consolidation, interstitial opacity, pleural effusion, pneumothorax)을 모두 고려하였다. 개별 병변의 종류에 따라 subgroup analysis 도 진행했다.
- 판독 시간의 절감을 보였다. 기존 흉부 영상 인공지능 연구들에서는 인공지능의 활용에 따른 판독 시간의 절감을 측정하지 않았거나, 유의미한 결과를 못 보여준 경우가 많았다. 하지만 이 연구에서는 상당한 판독 시간의 절감을 보여준다. (동시에, false positive 는 줄어드는 것까지 보여준다. 즉, 더 빨리 판독하면서도, 정확도는 더 좋아진다.)
- 판독자의 인공지능 활용 방법을 미리 교육했다. 마이너하게 보일 수도 있지만, 결코 마이너하지 않은 부분이, 판독자가 인공지능의 인터페이스를 얼마나 익숙하게/편리하게 활용할 수 있는지의 여부다. (실제 뷰노는 이 인터페이스 디자인에도 공을 상당히 들이는 것으로 안다.) 이 연구에서는 판독자가 뷰노의 DLD에 익숙해지도록, 이 프로그램이 설치된 워크스테이션에서 22건의 (독립적인) 케이스를 해보도록 미리 훈련을 시켰다. 이것이 판독 퍼포먼스를더 정확히 분석하기 위해 긍정적 영향을 미쳤을 수 있다.
그 결과 연구의 결과는 이런 종류의 연구가 늘 보여주듯이(?) 거의 모든 판독 관련 지표들이 유의미하게 좋아집니다.
- 세 레벨의 의사 (레지던트, 영상의학 전문의, 흉부영상 전문의)에서,
- 5가지 모든 종류의 병변에 대하여,
- JAFROC FOM, AUC, 병변별 민감도, 이미지별 민감도, 특이도, FPPI (이미지별 false positive), 판독시간
등의 지표가 모두 좋아지는 것이지요. (일부 p-value가 안 좋은 것도 있지만, 대부분 통계적으로 유의미합니다.) 요즘 비슷한 연구들이 ‘다 좋아집니다’ 하는 결과를 보여주기 때문에 일견 당연하게 보일 수도 있지만, 의사, 병변, 지표 등의 다양성과 연구 디자인의 엄정함을 보면, 결코 당연히 받아들일 수 있는 결과는 아닙니다.
지표가 좋아진다는 것에서 더 나아가서, 더 재미있게 본 부분들은 아래와 같습니다.
- 민감도, 특이도, FPPI 등의 개선이 있으면서도, 판독 시간은 (모든 판독자에서) 오히려 줄어들었다. 평균으로 따지면 기존에 케이스당 24초에서, 인공지능을 활용하면 12초로 두배 빠르게 판독 가능했다. 즉, 두 배 빠르면서도 정확도는 더 올라가는 것이다. 임상 현장에서는 이런 부분을 좋게 보실 듯.
- 인공지능을 활용한 레지던트(2명)가 인공지능을 활용하지 않은 영상의학과 (2명) 및 흉부영상의학과 전문의 (2명) 보다 더 판독 퍼포먼스가 좋다. 일부 지표가 아니라, JAFROC FOM, AUC, 병변별 민감도, 이미지별 민감도, 특이도, FPPI, 판독시간 등 ‘모든’ 지표에서 그러함. 심지어 그 레지던트 2명 중에 한 명은 non-radiology 레지던트다. (물론 n 수가 적다는 점을 감안해야 한다)
더불어, 이번 연구의 한계로는, 하나의 병원에서만 이뤄진 연구라는 점, 케이스당 세 가지 이상의 병변이 동시에 존재하는 케이스가 없었다는 점, (두 가지 종류의 병변이 존재하는 케이스까지는 있었습니다). 비록 CT 까지 판독하여 정답(reference stadard)을 만들긴 했지만, 이걸 한 명의 의사가 했다는 점 등이 언급되고 있기도 합니다.
2 Comments