진단의 최종 결정권자, 병리과
영상의학과, 안과, 피부과에 적용되는 의료 인공지능에 이어서, 이번에는 병리과의 의료 인공지능을 알아보려 한다. 여러 진료과 중에서 병리과는 의료 인공지능 연구가 가장 활발한 분야 중의 하나이다. 의료 인공지능의 논문 수를 적용 분야별로 따져보면 병리과가 가장 많다.
일반 환자에게 병리과는 그리 익숙하지 않은 진료과다. 진료를 받으며 직접 의사를 만날 수 있는 내과, 안과, 이비인후과 등과는 달리 병리과 의사들은 직접 환자를 대면하지 않기 때문이다. 의학에서 병리과는 진단을 최종적으로 내리는 중요한 역할을 맡는다. 환자로부터 채취된 조직이나 세포 검체를 분석하여 확진을 내리는 것이다.
예를 들어, 암이 의심되는 환자가 있으면 조직 검사를 하게 된다. 생검(biopsy)을 통해 암세포를 직접 떼어내어 그 조직을 검사하여 확진을 내리게 된다. 그 검사를 시행하는 곳이 바로 병리과다. 이 조직검사를 통해 종양의 유무, 악성과 양성의 여부, 암이 있을 경우 얼마나 심각한지, 혹은 특정 약으로 치료할 수 있는 유형의 암인지를 판단하고, 환자의 예후를 예측하기도 한다.
병리과에서는 조직을 현미경으로 보고 최종적인 진단을 내린다 (출처)
의료에서 병리과가 내린 결론은 절대적인 정답으로 간주된다. 다른 과에서 의뢰한 검사에 대해 병리과에서 확진을 내리면, 그 진단을 토대로 모든 진료, 치료 방법 결정 등이 이뤄진다. 병리과에서 내린 판단은 진료 및 연구를 수행할 때에도 정확성에 의심의 여지가 없는 ‘완전한 정답(ground-truth)’으로 간주된다. 따라서 병리과의 판독 정확성은 매우 중요하다고 할 수 있다.
병리과의 판독은 의료 인공지능을 개발할 때의 역할도 크다. 인공지능을 학습시키는 의료 데이터에 ‘정답’을 가장 확실하게 달아줄 수 있기 때문이다. 의료 데이터에서 병리과의 판독이 있는 데이터를 가장 좋은 퀄리티의 데이터로 간주한다. 앞서 소개한 피부암, 유방암 등을 판독하는 인공지능도 가장 확실한 ‘병리과에서 확진을 내린 결론’을 정답으로 학습하여 개발되었다.
그런데 우리는 여기서 한 가지 질문을 던져볼 수 있다. 과연 병리과 의사들의 판독은 얼마나 정확할까. 이 조직검사 역시 인간의 시각적 지각능력을 바탕으로 한다. 19세기 중반부터 지금까지 병리과 의사들의 가장 중요한 도구는 바로 현미경이다. 병리과 의사는 조직 검사 시에 환자의 검체를 얇은 슬라이드(절편)으로 깎아서 염색한 후에 세포 및 조직 등의 세부적인 구조, 모양, 색깔, 길이, 표면적 등을 눈으로 보고 판단을 내리게 된다.
최근에는 디지털 현미경을 사용하는 병원도 증가하고 있지만, 국내 대학병원 의사 중에서도 여전히 기존의 광학 현미경을 선호하는 분도 많다. 광학 현미경이든, 디지털 현미경이든 여전히 사람이 눈으로 보고 판단을 내린다는 것은 마찬가지다. 이러한 과정은 지난 100년이 넘는 기간 동안 병리과에서 크게 변화가 없던 과정으로, 이 부분 역시 이미지 분석 인공지능의 개입으로 개선될 여지가 있다고 여겨져 왔다. 지난 수십 년 동안 다양한 방법으로 병리과 의사들의 이미지 분석을 보조하려는 연구들이 수행되었던 것도 이 때문이다 [1, 2, 3, 4].
병리과의 인공지능을 논하기에 앞서서, 과연 이 분야에 인공지능의 도입이 필요할지를 먼저 살펴보자. 왜냐하면, 병리과 의사가 기존의 방식으로도 완벽한 결정을 내린다면 굳이 인공지능을 도입해야 할 필요가 적기 때문이다.
병리과 의사 간의 진단 불일치율
연구에 따르면 병리과 의사도 인간이기 때문에, 현미경을 통해 조직을 눈으로 보고 판단하는 과정에서 오류나 판독의 불일치가 존재한다 [1, 2]. 그것도 의사 간의 불일치율이 꽤 높다.
사실 병리 데이터의 판독 과정은 시간이 오래 걸리며, 노동 집약적인 경우가 많다. 예를 들어, 현미경으로 보는 한 장의 병리 슬라이드에는 수백만 개의 세포가 들어 있다. 이런 슬라이드를 하루에도 수백 장씩 오류 없이, 일관성을 유지하며 판독하는 것은 그 자체로 인간의 역량을 넘어서는 것인지도 모르겠다.
2015년 JAMA에는 “유방암 생검 검체의 판독에 대한 병리학자들의 불일치”라는 제목의 논문이 실렸다. 이 연구는 유방암 조직을 검사하여 병기를 판독하는데 개별 병리과 전문의들 사이에서 얼마나 큰 편차가 있는지 잘 보여준다. 미국의 병리과 전문의 수천 명을 대상으로 총 240개의 검체를 정상(benign without atypic), 비정형 세포(atypia), 유방 관상피내암(DCIS, ductal carcinoma in situ), 침윤성 유방암(invasive carcinoma)의 4가지로 구분하는 블라인드 테스트를 수행했다. 그 결과 총 6,900번의 판독 중에 정답을 맞춘 경우는 5,194번으로 그 비율은 75.3%에 지나지 않았다. 여기에서 ‘정답’은 경험 많은 병리과 전문의 세 명이 합의하여 결정한 것이었다.
총 6,900건의 판독 중에 정답을 맞춘 비중은 75.3%에 지나지 않았다. (JAMA 2015)
아래의 그림을 보면 하나의 검체에 대해서도 병리과 전문의들의 판독이 얼마나 다양할 수 있는지 잘 보여주고 있다. A, B, C, D는 각각 정상, 비정형 세포, 유방 관상피내암, 침윤성 유방암이 ‘정답’인 사례들이다. 이 사례들에 대해서 흰색, 노란색, 주황색, 붉은색은 각각 정상, 비정형 세포, 유방 관상피내암, 침윤성 유방암으로 판독한 의사들의 비율을 의미한다. 그림을 보면 어떤 사례들은 진단에 참여한 모든 의사가 동일한 판단을 내린 사례도 있지만 (하나의 색깔만 있는 경우), 또 어떤 사례들은 동일한 검체에 대해서 세 가지 혹은 네 가지의 판독을 내린 사례도 있다.
한 명의 환자가 정상인 동시에 암에 걸렸을 수는 없으므로 (예를 들어, 환자 69번, 154번, 218번 등) 이런 경우에는 결국 판독이 정확하지 않은 경우가 있었다는 것이다. 의료에서 ‘완전한 정답’으로 간주되는 병리과의 판독이지만, 이 역시 인간이 하는 일이기 때문에 고도로 훈련된 전문가도 놓치는 것이 있을 수 있으며, 전문가 사이에서의 실력 편차가 있을 수밖에 없다. 이는 앞서 설명한 영상의학과, 피부과, 안과 전문의들과 마찬가지다. 이 부분에서 역시 인공지능이 도움을 줄 수 있다.
240가지 유방암 생검 검체에 대해서 수천 명의 병리과 전문의들을
블라인드 테스트한 결과, 판독의 편차가 크게 나타났다 (JAMA 2015)
병리과 인공지능
이러한 이유로 병리 데이터의 판독 효율성, 일관성, 정확성을 높이기 위해, 병리과의 다양한 영역에서 이미지 인식 인공지능 기술이 접목되어 왔다. 이 중에서 딥러닝이 먼저 활발하게 적용되었던 문제 중 하나는 유방암 병리 슬라이드에서 유사분열(mitosis) 세포를 검출하고 그 숫자를 세는 것이었다.
악성 유방암의 등급을 나누고 환자의 예후를 판단하는 중요한 기준 중의 하나가 바로 유사 분열이 얼마나 활발한지를 측정하는 것이다. 하지만 유사분열 세포는 크기도 아주 작고 다양한 모양을 가지고 있기 때문에 까다롭고 혼동되기도 쉽다. 그렇기 때문에, 이를 측정하는 것은 일관성과 재현성도 낮고 전문가 사이의 편차도 크다고 알려져 있다.
유사분열하는 세포들의 예시 (출처)
CNN 기반의 딥러닝은 이러한 유사분열 세포 검출 대회에서도 두각을 나타낸다. 2012년 열린 ICPR12과 2013년 AMIDA13라는 유사분열 세포의 검출 대회에서도 CNN 기반의 인공지능을 활용한 팀이 우승하게 된다 [1, 2]. 한국에서는 의료 인공지능 스타트업 루닛에서 개발하는 인공지능 중 하나도 유방 병리 데이터 분석에 관한 것이다. 루닛은 2016년에 병리 슬라이드 데이터를 바탕으로 유방암의 진행 정도를 예측하는 TUPAC (Tumor Proliferation Assessment Challenge) 대회에서 좋은 성적을 거두었다. 약 800장의 병리 슬라이드를 바탕으로 유사분열 세포의 검출과 유전자 발현 등을 통해 유방암 진행을 예측하는 등의 세 부문 모두 루닛이 1위를 차지했다 [1, 2].
또한 2017년에는 유방암 병리 데이터에 대해서 치료법 결정에 중요한 특정 유전자의 발현 여부를 병리과 전문의 수준으로 정확하게 판독하는 인공지능도 발표되었다. HER2라는 유전자는 유방암의 가장 중요한 생체 표지자 중 하나로 전 세계 270만 명의 유방암 환자 중에 15~20% 정도에서 과발현된다. 이 경우 허셉틴(Herceptin) 등의 표적항암제를 투여할 수 있기 때문에, 치료 방법의 결정을 위해서 병리 슬라이드에서 HER2가 과발현 여부를 확인하는 것은 매우 중요하다. 다국적 제약사 아스트라제네카의 연구진은 CNN을 기반으로 개발한 인공지능이 병리과 전문의와 동일한 수준으로 검체의 HER2 과발현 여부를 판독할 수 있다는 것을 증명했다.
하버드의 인공지능 병리학자
병리과 인공지능의 사례에 대해서 조금 더 깊이 살펴보자. 이번에는 Camelyon16 이라는 대회의 우승팀을 중심으로 살펴보려고 한다. 이 대회는 유방암 병리 슬라이드 판독을 통해 유방암의 림프절 전이 여부 판독 실력을 경쟁한다. 유방암의 림프절 전이 여부는 유방암의 진행 정도와 예후, 치료법을 결정하기 위해서 매우 중요하다. 미국에서만 연간 23만 명의 유방암 환자들이 림프절 전이 검사를 받는다.
Camelyon16 대회에서는 총 270장의 병리 슬라이드가 학습용으로 주어지고, 이를 학습하여 만든 모델로 130장의 슬라이드를 판독해야 한다. 대회는 크게 두 부문으로 나뉘어져 있다. 하나는 주어진 슬라이드가 암인지 아닌지를 판독하는 것이고, 다른 하나는 병리 슬라이드에서 암이 어디에 있는지 위치까지 맞춰야 한다. 2016년도 대회에는 전 세계 200개 이상의 팀이 이 대회에 참가했는데, 이 중 하버드 대학교의 앤드류 백(Andrew Beck) 교수 팀이 두 부문 모두에서 우승을 차지했다.
Camelyon16 에서 우승한 앤드류 백 교수팀의 딥러닝 모델 개요 (출처)
앤드류 백 교수팀은 구글의 인셉션 아키텍쳐에 전이학습시켰다. 이 과정에서 인셉션, 알렉스넷, 구글의 얼굴 인식 딥러닝 모델인 페이스넷 등을 시험해본 결과 인셉션의 성능이 가장 우수했다. 학습 데이터로 주어진 병리 슬라이드가 270장으로 수가 많지 않고, 이미지 크기도 컸기 때문에 작은 패치 형태로 쪼개어서 암에 해당하는 패치와 정상 패치를 인셉션에 학습시켰다. 이를 바탕으로 전체 슬라이드가 암인지 아닌지와 해당 슬라이드에서 암이 어느 곳에 위치하는지 등을 계산할 수 있었다.
그 결과 앤드류 백 교수팀의 인공지능은 슬라이드가 암인지 여부를 판단하는 문제에 대해서 AUC 값이 0.925 (에러율 7.5%)의 높은 정확도로 우승을 차지했다. (foot note: 앤드류 백 박사팀은 에러율(Error Rate)을 1-AUC 로 정의하였다) 동일한 병리 슬라이드에 대한 인간 병리학자들의 정확성을 평가해본 결과 AUC 값이 0.966으로 좀 더 높았다. 다만, 이 경우에 인간 병리학자들은 무제한의 시간을 썼다. 시간 제약이 있는 실제 진료 현장에서는 에러율이 10% 이상일 때도 있다는 것을 고려한다면 병리과 전문의와 거의 맞먹는 실력이라고 해도 무리는 없을 것으로 보인다.
병리학 전문의와 인공지능이 개별적으로 판독하는 것보다,
서로 힘을 합치게 되면 훨씬 더 좋은 정확도를 보여준다. (출처)
여기서 흥미로운 것은 인간 병리학자와 인공지능이 힘을 합했을 경우다. 이 경우에 인공지능은 인간 병리학 전문의를 보조함으로써, 휴먼 에러를 약 85% 감소시켜 AUC 값을 0.995를 달성했다. 이는 불과 에러율이 0.5%에 그치는 것이다. 논문에서 인간과 인공지능이 정확히 어떠한 방식으로 협력했는지는 서술되어 있지는 않으나, 아마도 인공지능이 판독한 결과를 보고 인간 병리학 전문의가 최종적인 판단을 내렸을 것으로 생각된다. 인공지능의 판독 결과에는 슬라이드의 어느 부위가 암으로 의심되는지 확률이 색깔로 표시해놓았으므로, 병리과 전문의가 해당 부위를 더 유심히 살펴볼 수 있었을 것이다.
앞서 필자가 의료 인공지능을 논의하기 시작하면서 인간과 인공지능은 서로 경쟁관계에 있는 것이 아니며, 어떻게 협력할지가 관건이라고 강조한 바 있다. 이러한 병리 데이터의 경우에 시간이 오래 걸리고, 노동 집약적이며, 인간의 인지 능력에 전적으로 좌우되므로, 인공지능과 힘을 합치면 병리학자의 정확성이 극적으로 개선될 수 있다는 점을 보여준다. 특히 이러한 인공지능과 인간 의사의 시너지가 있는 이유는 서로 강점이 있는 부분이 다르기 때문이다. (이 부분은 아래의 후속 연구에서 더 자세히 설명하겠다)
대회 이후에 앤드류 백 박사는 패쓰AI(PathAI)라는 인공지능 스타트업을 창업했고, 이 딥러닝 인공지능을 더욱 개선시켰다. 그 결과 인공지능 자체의 에러율을 0.65%까지 개선했다고도 발표했다.
최근 앤드류 백 교수팀은 에러율을 더욱 개선했다고 발표했다 (출처)
구글의 인공지능 병리학자
2017년 3월 구글의 연구진은 앞서 설명한 앤드류 백 교수팀의 연구를 더욱 발전시켰다 [1, 2]. 딥러닝에 대한 여러 테크닉을 추가하여 정확성을 좀 더 높인 것이다. 병리 데이터의 배율을 조정하는 등으로 여러 딥러닝 모델을 만들어서 시험해보았는데, 단순히 AUC 값을 기준으로 한다면 이 구글의 정확도는 0.967~0.986 정도로 인간 병리학자의 정확도(0.966)과 비슷했지만, 앞서 소개한 앤드류 백 교수팀의 모델에 비해서 대폭 개선된 성능을 보여줬다고 하기는 어렵다. 하지만 다음 섹션에서 설명할 FROC 및 @8FP의 기준으로 보자면 이 연구의 병리 인공지능은 큰 의미를 가진다고 할 수 있다.
이렇게 개발된 인공지능은 Camelyon16 대회의 데이터에 속하지 않은 또 다른 병리 데이터에 대해서도 테스트 해보았다. 일반적으로 병리 데이터를 포함한 의료 영상에서는 촬영하는 기기나 제조사 등에 따라서 데이터의 특성이 달라질 가능성도 있다. 최악의 경우 A라는 제조사에서 촬영한 영상으로 학습하여 높은 성능을 보여주는 인공지능이, B 제조사의 기기로 촬영한 데이터에 대해서는 정확도가 낮은 경우도 배제할 수 없다. 이 연구에서는 다른 환자군에 대해서 다른 제조사의 디지털 스캐너로 스캔한 110장의 병리 슬라이드에 대해서 인공지능을 테스트했다. 그 결과 AUC 값이 97.6%로 Camelyon16 데이터로 테스트한 결과와 거의 동일하다는 것을 증명했다.
더 나아가 이 인공지능은 Camelyon16 대회에서 정답으로 주어진 학습 데이터 중 ‘정상’으로 분류된 슬라이드에 실제로는 암세포가 존재하는 슬라이드라는 것까지도 밝혀냈다. 확인 결과 대회측의 데이터 처리 과정에서 오류가 있었던 것으로 드러났고, 다행히도 환자에게는 영향이 없었던 것으로 밝혀졌다.
병리학자와 인공지능이 힘을 합치면
하지만 우리가 이 연구에서 주목해야 할 것은 FROC와 @8FP 값이다. 앤드류 백 교수팀의 연구에 비해서 구글의 인공지능은 이 FROC와 @8FP 값에서 큰 개선을 나타내었다. 결론부터 말해서 이 수치는 인공지능이 인간 병리학자와의 시너지 효과 가능성을 보기 위해서 중요하다고 할 수 있다.
이 두 수치는 조금 설명이 필요하다. 두 수치는 모두 인공지능에게 약간의 오류를 허용했을 때 성능이 어떻게 좋아지는지를 평가하기 위한 값이다. 인공지능의 성능을 평가하기 위해서 사용되는 민감도(sensitivity)와 특이도(specificity)가 서로 상반되는 값이라는 것은 앞서 여러 번 강조한 바 있다. 이 연구에서 민감도는 실제로 암이 있는 슬라이드를 검사하여 ‘암이 있다’고 정확히 판단하는 비율이며, 특이도는 암이 없는 슬라이드를 검사하여 ‘암이 없다’고 정확히 판단하는 비율이다.
그런데 인공지능이 슬라이드 한 장을 판독할 때 ‘실제로는 암이 아니지만, 암이라고 잘못 판단하는’ 지점을 하나 정도는 봐주고 민감도를 계산하면 어떨까? (foot note: ‘실제로는 암이 아니지만, 암이라고 잘못 판단하는’ 경우를 위양성(false positive)라고 한다. 학계에서는 위양성이나, ‘false positive’라는 용어를 그대로 쓰지만, 본문에서는 일반 독자의 이해를 돕기 위해서 ‘실제로는 암이 아니지만, 암이라고 잘못 판단하는’ 이라고 풀어서 설명하겠다.) 이러한 유형의 실수를 인공지능이 저지르는 것을 조금 눈감아준다면, 우리는 더욱 높은 민감도를 달성할 수 있을 것이다. 즉, 실제로 암이 있는 슬라이드는 거의 놓치지 않고 검출할 수 있게 된다. 다만, 이 경우에는 우리가 조금 눈감아준 실수 때문에 인공지능이 암이라고 판독한 것 중에, 실제로는 정상적인 슬라이드의 비중이 조금 높아지는 것을 감수해야 한다.
이러한 경우를 감안하여 인공지능의 성능을 평가하기 위한 수치가 FROC와 @8FP이다. @8FP의 경우는 우리가 슬라이드 한 장당 인공지능이 평균 8개까지 ‘실제로는 암이 아니지만, 암이라고 잘못 판단한’ 실수를 봐주었을 경우에 달성할 수 있는 민감도다. 구글의 인공지능은 @8FP를 최대 92.9%까지 달성했다. FROC도 이와 비슷한 수치를 설명한다고 이해하면 되는데, 구글의 인공지능은 88.5%를 달성했다. (foot note: FROC의 경우 위양성을 슬라이드당 평균 1/4, 1/2, 1, 2, 4, 8 개를 허용하면서 나타나는 민감도의 평균을 구한 것이다)
이것이 의미하는 바는 바로 인간 병리학 전문의와 인공지능의 시너지가 있을 수 있다는 것이다. 이번 연구에 따르면 인간 병리학 전문의는 민감도를 73.3%를 달성하였다. 즉, FROC와 @8FP 모두 73.3%이다. 그런데 인간 의사들은 인공지능과 달리 ‘실제로는 암이 아니지만, 암이라고 잘못 판단하는’ 실수는 한 번도 저지르지 않았다. 즉, 민감도는 인공지능보다 조금 낮았지만, 특이도는 극히 높았다.
반면 구글의 인공지능은 ‘실제로는 암이 아니지만, 암이라고 잘못 판단하는’ 실수를 조금 눈감아준다면, 매우 효율적이고 일관적으로 암이 있는 슬라이드는 거의 모두 정확하게 검출할 수 있다. 즉, 특이도의 희생을 조금 감수한다면, 매우 높은 민감도를 달성할 수 있다는 것이다.
이 연구에 따르면, 이렇게 인공지능과 인간 병리학자는 서로 다른 부분에 강점이 있다는 것을 알 수 있다. 따라서 인간 병리학자와 인공지능의 힘을 효과적으로 합치면 높은 민감도와 높은 특이도를 모두 달성할 수 있을 것이다. 예를 들어, 인공지능이 먼저 대량의 슬라이드를 판독하여 암일 가능성이 있는 슬라이드를 먼저 추려주고, 해당 슬라이드에서 암으로 생각되는 후보 위치까지도 선정해줄 수 있다. 이 부분에서 인공지능은 암이 있는 슬라이드를 거의 놓치지 않는다. 이를 인간 병리과 의사가 한 번 더 판독하여 확진을 내린다. 이 부분에서 인간 병리학 전문의는 암처럼 보이지만 암이 아닌 슬라이드를 매우 정확하게 골라낸다.
특히 인공지능은 판단이 매우 빠르고, 훨씬 더 많은 양의 데이터를 한 번에 처리하고도 피로를 느끼지 않으므로 인간 의사가 효율적이고 일관된 판독을 할 수 있도록 도울 수 있을 것이다. 이렇게 이번 구글의 연구에서는 이러한 인간+인공지능의 시너지에 대해서 충분한 가능성을 엿볼 수 있지만, 직접 그 시너지를 증명하지는 않았다.
하지만 과거의 병리과 인공지능 연구들을 보면 그 가능성을 좀 더 탐색한 것들이 있다. 2016년 한 연구에서는 딥러닝을 활용하는 것이 병리과 의사들의 업무를 줄여주고, 정확성과 효율성을 모두 높일 수 있다는 것을 발견했다.이 연구에서는 역시 CNN을 활용하여 전립선암과 유방암의 병리 데이터를 판독하는 인공지능을 개발했다.
그 결과 전립선암 슬라이드의 경우, 인공지능으로 전체 데이터 중에서 32%를 암이 확실하게 없는 것으로 정확하게 판단하여 미리 제외할 수 있었다. 유방암의 경우에 미리 제외할 수 있었던 비중은 44%에 달했다. 이렇게 인공지능을 활용하여 암이 확실하게 없는 슬라이드의 상당수를 미리 제외함으로써 병리과 의사들의 업무 부담을 줄이고 판독 효율성을 높일 수 있을 것이다.
(계속)