얼마 전 외국 언론에 ‘MIT의 인공지능이 유방암 발병을 5년 미리 예측한다 (MIT CSAIL’s AI can predict the onset of breast cancer 5 years in advance)’ 라는 제목의 연구가 소개되어, 원문을 찾아보았다. 이번 달 Radiology에 실린 논문으로 MIT와 MGH의 공동연구로 진행되었다. 언론의 제목이 맞기는 하지만, 더 정확하게는 ‘mammography (엑스레이 유방촬영술) 이미지에 기반한 딥러닝이 (기존의 risk factor 에 기반한 유방암 발병 예측 모델보다) 상대적으로 5년 발병 여부를 더 정확하게 예측했다’는 것이 주제인 논문이다.
기존의 유방암 발병 위험도 평가 모델 Tyrer-Cuzick (TC) 모델에는 유방암 발병에 관여한다고 알려진 다양한 인자가 고려된다. 나이, 체중, 키, 초경 나이, 폐경여부, 유방암/난소암 가족력, BRCA 변이, atypical hyperplasia 히스토리, 유방 밀도 등등. 하지만 이 논문에서는 이렇게 기존에 알려진 위험 인자를 고려하지 않고도, 단순히 엑스레이로 유방을 촬영한 mammography 이미지 만으로 딥러닝은 5년 내 유방암 발병을 더 정확하게 예측한다는 것을 증명하고 있다. 더 나아가, 전통적인 위험인자 기반의 모델과 엑스레이 유방 촬영술 기반의 딥러닝을 합하면 예측력이 더 높아진다는 것도 보여주고 있다.
이 연구는 88,000 여명의 환자의 데이터를 기반으로 retrospecitve 로 진행했다. 처음 mammography를 찍은 이후에 5년 내에 유방암 발병 여부가 알려진 환자들의 데이터만을 모아서 학습 시킨 것. 아래와 같이 크게 네 가지 그룹으로 구분하여, 기존의 위험인자, mammography 이미지 기반 딥러닝의 정확성을 구분했다.
- TC (Tyrer-Cuzick): 기존에 임상에서 활용되는 Tyrer-Cuzick 모델. (risk factor 기반의 단순한 모델) 가장 기본적인 베이스라인이라고 할 수 있다.
- RF-LR: risk factor 에 기반하여 logistic regression을 한 모델. 1번에 비해서는 강한 컨트롤이다. 다만, 여기에도 mammography의 정보는 들어가지 않았다.
- Image Only DL: risk factor는 포함시키지 않고, 오직 mammography 이미지만 가지고 딥러닝으로 학습시킨 모델. CNN을 활용하였으며, RasNet18에 기반하였다.
- Hybrid DL: 2번과 3번을 하이브리드로 만든, 즉 기존의 risk factor와 DL로 학습한 mammography를 모두 고려한 모델이다. (이 두 가지를 어떻게 합했는지는 Method에 자세하게 안 나온다..)
그 결과를 보면, 대부분의 경우에 Hybrid DL과 Image Only DL이 기존의 risk factor 만 사용하던 모델에 비해서 5년 유방암 발병율을 유의미하게 더 잘 예측한다. 위의 그림과 같이 특히 TC에 비해서는 Hybrid DL과 Image Only DL이 대부분의 환자군에서 유의미하게 좋다. 다만, 정확도가 상대적으로 좋다는 것이지, 절대적인 AUC 값 자체는 높지 않았다. 전체 환자군에 대해서 AUC가 가장 높았던 Hybrid DL도 0.7에 그친다. 이게 정말 임상적으로 큰 의미를 가지는 것인지 궁금하다. (즉, 반대로 말하면 기존의 TC는 사실 더 심각한데, 0.61 밖에 안 됨…)
환자군을 추가적으로 백인과 흑인 환자를 구분해보고, 폐경 전후의 환자, 그리고 가족력이 있는/없는 환자를 구분해서도 이 모델을 적용해본 경우, 대부분의 경우에 Hybrid DL이 TC 모델보다는 유의미하게 좋게 나온다. 다만, 폐경전 여성 환자, 가족력이 없는 환자의 경우에는 개선이 유의미하지 않다. (흥미롭게도(?) 흑인 환자의 경우 TC의 AUC는 0.45 이다. 즉, 동전 던지기보다 못한 수준. 그에 비해 Hybrid DL은 0.71 이다)
더 나아가 처음에 mammography 찍고 나서, (바로 발병한 것이 아니라) 3-5년 이후에 발병한 환자군에 대해서만 따로 테스트 했을 경우에도 이러한 정확도는 크게 변화하지 않았다. 즉, 이미지만 보고서도 유방암의 long term 발병 여부도 딥러닝이 잘 잡아낸다는 것도 확인하였다.
마지막에는 confusion matrix analysis를 통해서, Hybrid DL로 계산한 위험도가 단순히 유방 밀도만을 기반으로 위험군을 나누거나, 혹은 TC를 통해서 위험군을 나누는 것보다 더 informative하다는 이야기를 한다. 메트릭스에서 Density 혹은 TC로는 (즉, 같은 칼럼에서는) 유병율에 크게 차이가 나지 않는데 비해서, Hybrid DL을 기준으로 보면 (즉, 같은 row에서는) 유병율이 명확하게 차이가 드러난다. (위의 그림)
유방암으로 너무도 많은 환자들이 고통을 받고, 목숨을 잃고 있으므로, 발병을 정확하게 미리 예측할 수 있다면 크게 도움이 될 것이다. 이 연구는 기존의 TC와 같은 risk factor 기반의 단순한 모델에 비해서, 엑스레이 mammography 기반의 딥러닝을 통해서 발병 예측 정확도를 더 높일 수 있었다는데 의미가 있다.
Image Only에 비해서 Hybrid가 정확도가 더 높은 것을 보면, 유방촬영술과 기존의 risk factor 사이에는 상보적인 정보가 담겨 있을 것으로 추정할 수 있다. 다만, risk factor를 구성하는 여러 요소들 사이에서 어떤 것이, 이미지 기반의 딥러닝과 더 상보적이고, 덜 상보적일지에 대해서는 추가적인 분석이 필요하다고 언급하고 있다. 더 나아가, 추가적인 유전 변이에 대한 정보 등을 더 고려할 수도 있을 것이다. (현재의 TC 모델에는 BRCA만 고려된다) 또한, 일단 Image Only DL만 하더라도 기존 TC에 비해서 유의미하게 좋기 때문에, mammography 촬영할 때부터 이를 계산하거나, 혹은 가족력 등에 대한 정보가 없어서 risk factor를 얻기 힘든 환자의 경우에도 활용도가 높을 것이다.
특히, 엑스레이 이미지만 보고는 영상의학과 전문의도 알아차릴 수 없는 특징을 이번에도 딥러닝이 파악했다. 하지만, 블랙박스 문제는 여전히 남아 있다. 딥러닝이 mammography에서 5년 유방암 발병을 상대적으로 정확하게 예측하기는 하지만, 이것을 ‘어떻게’ 예측하는지는 이 논문에서 깊게 분석하지 않았다. 저자들은 딥러닝이 단순히 density만 보는 것은 분명히 아니고, fine-grain tissue pattern이나 그런 패턴의 relative orientation을 볼 것으로 추정하고 있는 정도이다.
논문을 읽은 후에 유방암을 보시는 선생님들과 조금 이야기를 나눠보니, Tyrer-Cuzick 모델이 연구적으로는 많이 언급되지만, 실제 임상에서는 활용도가 높지 않다고 한다. 유방암은 발병을 미리 알게 되더라도 이를 예방할 수 있는 방법이 마땅히 없으며, 그렇다고 암이 발병하지 않은 환자에게 공격적인 치료를 미리 하기도 어렵기 때문인 측면이 큰 것 같다. 또한 개인적으로는 기존의 Tyrer-Cuzick 모델 자체의 예측력이 AUC 0.6으로 너무 낮기 때문에, 기본적으로 추가적인 대응에 대한 연구도 이뤄지지 않은 것이 아닌가 한다.
이번 연구에서 단순한 분석적 정확도(anlaytical validity)를 나타내는 AUC 수치 역시 딥러닝을 활용함으로써 0.6에서 0.7 정도로 높아졌다. (이 차이가 통계적으로 유의미하기는 하다) Confusion matrix analysis 에서 보더라도 incidence가 가장 높은 칸이 5.5%, 6.0% 밖에(?) 되지 않는다. 단순히 높은 AUC를 달성했다는 것이 임상적인 의미나 의료 현장에서 활용성의 충분 조건은 되지 않지만, 그래도 (특히 이러한 예측의 문제에 대해서) 필요 조건은 될 것이다. 따라서 이러한 암의 발병 예측에 따른 예방적 치료까지 이어지기 위해서는 더 높은 AUC의 달성과 더불어서, 임상적인 효용에 대한 연구가 추가적으로 진행되어야 할 것으로 보인다.