Sunday 09th March 2025,
최윤섭의 디지털 헬스케어

루닛의 인공지능으로 유방암 검진에서 의사를 대체하기

인공지능으로 의사를 대체할 수 있을 것인지는 흥미롭고도, 중요하고, 또 예민한 문제입니다. 더 나아가면, 의학적으로 이것이 (적어도 특정 상황, 특정 환경에서라도) 가능하다고 증명하기가 아주 어려운 문제이기도 합니다. 의료 인공지능 분야 초창기에는 이런 질문이 많이 나왔었지만, 일종의 흥미 위주의 질문이기도 했고, 또 의료계에서 예민하게 반응할 수도 있는 질문이기 때문에 이를 직접적으로, 진지하게 다루는 경우는 많이 없었습니다. 하지만 이 분야의 발전이 지속적으로 진행되면서, 주류 의료계와 연구에서도 이런 질문들이 서서히 진지하게 논의되기 시작했습니다.

 

루닛의 AI로 유방암 검진에서 영상의학과 의사를 대체하기

이와 관련된 흥미롭고도 중요한 연구를 하나 소개해드릴까 합니다. 우리에게 익숙한 루닛의 유방촬영술 (mammography)에 대한 인공지능인 INSIGHT MMG를 독립적인 판독자로 활용하여, 기존의 표준 유방암 스크리닝 프로토콜에서 의사의 참여를 줄일 수 있다는 것을 증명한 연구입니다.

스웨덴 스톡홀롬의 Capio Sankt Göran Hospital 연구자들이 루닛의 INSIGHT MMG을 활용하여 진행한 연구로 (루닛 분들은 저자로 참여하지 않았습니다), 2023년 Lancet Digital Health에 출판된 논문입니다. 사실 출판된지 1년 반 정도 되었지만, 워낙 중요한 내용을 다루고 있는 논문이고, 후속 연구들이 최근까지도 진행되고 있는 것으로 보여서 이번 기회에 한번 소개해보려고 합니다.

유럽에서는 여성의 유방촬영술 정기검진에서 두 명의 영상의학과 전문의가 이중 판독(double reading)하는 것이 표준적인 프로토콜(standard-of-care)입니다. 결론적으로 이 연구에서는 유방암의 검출을 위해서 한 명의 영상의학과 전문의와 루닛의 인공지능이 함께 판독하는 것이, 두 명의 영상의학과 전문의가 판독하는 것에 비해서 열등하지 않을(non-inferior) 뿐만 아니라, 오히려 더 많은 유방암 환자를 검출할 수 있다는 것을 증명하였습니다.

더 나아가서는, (영상의학과 전문의가 아예 관여하지 않고) 루닛의 인공지능만으로 유방촬영술을 판독하는 것 역시, 유방암 검출률을 기준으로 두 명의 영상의학과 전문의가 이중 판독을 하는 것에 비해 열등하지 않다는 것도 증명하였습니다. 이는 적어도 이 병원의 환경에서는 유방촬영술의 판독에 대해서 영상의학과 전문의의 역할을 상당부분 인공지능으로 대체할 가능성이 있다는 것을 시사합니다. 즉, 병원의 영상의학과 전문의의 판독 부담을 줄일 수 있기 때문에 의료 자원을 크게 절약할 수 있게 됩니다. 특히 유럽에는 영상의학과 전문의 인력이 많이 부족한 상황이라서, 의료 자원을 절약할 수 있다는 것은 큰 의의가 있습니다.

 

연구의 디자인

ScreenTrustCAD로 명명된 이 연구의 가장 큰 의미는 바로 전향적(prospective) 연구라는 것입니다. 그동안 유방촬영술에 대해서 인공지능의 정확도가 상당히 (영상의학과 전문의와 비견할 수 있을 정도로) 높다는 것은 몇몇 연구에서 증명되어 왔지만, 모두가 후향적(retrospective) 연구였다는 한계가 있었습니다. 후향적인 연구는 여러 편향에 취약할 뿐만 아니라, 인공지능을 전체 스크리닝 워크플로우에 포함시킬 수 없기 때문에 의학적 효용을 증명하는 것에 한계가 있습니다.

특히, 유럽에서 진행하는 유방촬영술에 기반한 유방암 스크리닝 프로토콜은 (앞서 언급한 것처럼) 영상의학과 전문의 2명의 이중 판독을 하고, 이중 판독에서 결론이 내려지지 않을 경우에는 합의 판독(consensus discussion)을 진행합니다. 합의 판독에서 필요하다고 결론이 나면 환자를 다시 병원으로 소환해서 추가 검사(추가 영상 검사 혹은 생검 등)를 진행하는 방식으로 진행합니다. 따라서, 후향적 연구로는 이런 전체 프로토콜에서 인공지능을 추가하여 그 효용을 검증할 수 없기 때문에, 이번 연구처럼 전향적인 연구를 해야 합니다.

이 연구의 구조를 조금 더 상세히 이해하기 위해서, 스웨덴에서 시행하는 기존의 유방촬영술 기반의 표준 스크리닝 프로토콜을 간략히 설명해보겠습니다. 먼저 영상의학과 전문의 2명이 각각 독립적으로 유방촬영술 영상을 판독합니다. 만약 판독자 두 명 모두 정상이라고 결론을 내린다면, 이 환자는 정상으로 간주합니다. 만약 판독자 두 명 중 한 명이라도 비정상으로 판독한다면, 두 명의 영상의학과 의사가 합의 판독을 진행하여, 이 환자를 병원으로 다시 소환(recall)할지 여부를 결정합니다. 환자를 병원으로 재소환 하게 되는 경우에는, 추가적인 영상 검사 (초음파, 유방단층촬영술 등)를 진행하고, 이를 통해도 여전히 암으로 의심되는 경우는 생검을 진행하여 병리과 전문의가 최종 판독을 내리게 됩니다.

이러한 표준 판독 절차에 기반하여, 이 연구는 인공지능을 판독 워크플로우에 추가하기 위해서 약간의 변화를 주었습니다. 첫 번째 판독 단계에서 영상의학과 2명의 이중 판독은 그대로 진행하고, 루닛의 인공지능은 백그라운드에서 돌아갑니다. (각 영상의학과 의사는 다른 영상의학과 의사 및 인공지능의 결과를 모르고 판독합니다.) 그리고 만약 세 판독자 (영상의학과 의사 2명과 인공지능) 중의 하나라도 비정상으로 판독하면 합의 판독을 진행하게 됩니다. 합의 판독 시에는 영상의학과 의사들이 인공지능의 모든 결과를 검토하고서 환자를 소환할지 결론을 내리게 됩니다.

특히, 이 연구에서는 크게 네 가지 그룹의 판독 전략을 나누고, 각 그룹의 퍼포먼스를 비교하였습니다.

  • 두 명의 영상의학과 전문의가 이중 판독 (표준 치료)
  • 한 명의 영상의학과 전문의와 인공지능이 이중 판독 (이 논문에서 검증하고자 하는 주요 실험군)
  • 인공지능 혼자서 판독
  • 두 명의 영상의학과 전문의와 인공지능까지 삼중 판독

참고로, 이 연구에 참여한 영상의학과 전문의들은 총 11명으로, 가장 경력이 짧은 분이 5년이었고, 최장 경력인 분은 32년, 그리고 경력의 중간값은 17년이었습니다.

 

한 명의 영상의학과 의사를 대체하는 경우의 비열등성 및 우월성

이 임상 연구는 2021년 4월 1일부터, 2022년 6월 9일까지 40-74세의 여성 58,344명을 대상으로 전향적으로 시행하였습니다. (이 연구의 조건에 맞아서, 실제로 연구의 분석에 포함된 사람은 55,581명). 그 중에 세 판독자 중 적어도 하나가 비정상으로 판독하여, 합의 판독을 거친 환자는 6,002명이었고, 그 결과 재소환된 사람은 1,716명, 그 중에서 생검을 한 분은 414명, 생검 결과 최종적으로 암으로 진단 받은 사람은 269명이었습니다.

이 논문에서 가장 중요하게 밝히고자 했던 것(primary outcome)은 두 명의 영상의학과 전문의가 이중 판독을 한 경우에 비해서, 한 명의 영상의학과 전문의 + 인공지능의 이중 판독이 암 검출률을 기준으로 비열등한지의 여부인데요. 결과적으로 전자는 250명의 암을 검출하였고, 후자는 261명의 암을 검출하여서 단순히 비열등할 뿐만 아니라 (relative proportion 1.04, non-inferiority margin 15%), 심지어 통계적으로 유의미하게 더 우월하다(p=0.017)는 것을 증명하였습니다. 즉, 스웨덴 식의 이중 판독 구조에서 영상의학과 전문의 한 명을 인공지능으로 대체하면 기존의 표준 검사 방식 대비 열등하지 않을뿐만 아니라, 오히려 4% (11/250) 더 많은 암을 찾아낼 수 있다는 것입니다.

더 나아가서, 이후 프로토콜까지 비교 분석한 결과도 흥미롭습니다. 두 명의 영상의학과 의사에 대비해서 한 명의 영상의학과+AI 그룹은 21% (858/4104) 더 많은 비정상 판독을 내려서, 더 많은 합의 판독을 야기하기는 하지만, 합의 판독의 결과 환자를 소환하는 숫자는 오히려 기존 대비 4% (73/1629) 적습니다.

이는 인공지능으로 영상의학과 의사 한 명을 대체할 경우, 의학적인 효용이 아주 클 수 있다는 것을 의미합니다. 스크리닝할 인구를 100,000명으로 환산한다면, 한 명의 의사를 인공지능으로 대체한다면, 합의 판독의 숫자는 1,562회 늘어나지만, 동시에 영상의학과 의사가 판독해야 하는 횟수가 100,000번이나 줄어들게 됩니다. 만약 합의 판독 1회에 걸리는 시간이 유방 촬영술 판독 1회보다 5배가 걸리더라도, 결과적으로 영상의학과 의사에게 돌아가는 업무 부담의 총합은 더 적습니다.

두 명의 영상의학과 의사를 모두 대체하는 경우의 비열등성

더 나아가서, 두 명의 영상의학과 전문의가 이중 판독을 한 경우에 비해서, 그냥 인공지능 단독으로 판독한 경우를 비교해보았습니다. 인공지능 혼자서는 총 246명의 암을 검출하였기 때문에, 기존의 방식 대비 암 검출률은 약간 떨어지지만, 그래도 relative proportion은 0.98로 이 전략 역시 표준 프로토콜 대비 비열등(p<0.0001)하다는 것이 증명되었습니다. 다만 이 경우에는 인공지능 단독 판독이 기존의 표준 방식 대비 더 우월하지는 않았습니다. (p=0.73)

그런데 이렇게 인공지능 단독으로 판독하는 경우에는 어찌보면 더 흥미로운 결과가 발생합니다. 판독자가 (사람이든 인공지능이든) 두 명인 경우에 비해서 혼자서 판독하면 위양성(false positive)의 총 숫자가 적을 수밖에 없기 때문에, 환자의 재소환 숫자가 거의 절반인 47% (768/1629) 줄어들게 됩니다. 환자를 병원으로 다시 부르는 숫자가 절반 가까이 줄어든다는 것은, 환자들에게 불필요한 걱정을 끼치는 일 역시 절반으로 줄어든다는 뜻이므로 적지 않은 의미가 있습니다.

더 나아가, 인공지능 단독으로 판독하면 (영상의학과 1명 + 인공지능 그룹에 비해서도) 더 큰 인력 감축 효과가 있습니다. 이런 방식의 경우라면, 영상의학과 전문의는 인공지능 단독으로 판독하여 이상 소견이 있는 환자를 대상으로 합의 판독부터 개입을 하게 될 것입니다. 다만, 이 경우는 큰 비중의 환자들이 (인공지능에 의해서 정상으로 판독되는 경우) 결과적으로 실제 영상의학과 전문의의 판독을 아예 받지 못한다는 것이므로, 의학적인 책임 소재와 윤리 이슈, 어떤 인공지능에 이런 자격을 부여할 것인지에 대한 추가적인 논의가 필요할 것입니다.

 

임상적 타당성과 임상적 유용성

이번 연구는 유방촬영술 판독에 대한 인공지능의 임상적 타당성(clinical validity)와 임상적 유용성(clinical utility)을 모두 증명했다고 할 수 있습니다. 실제 임상 환경에서 인공지능의 진단 정확도(diagnostic accuracy) 측면에서의 비열등성 및 우월성까지 보였기 때문에 임상적 타당성을 갖추었음을 보였고, 더 나아가면 영상의학과 전문의의 업무량을 44%에서 최대 100%까지 감소시킬 수 있음을 보였으므로 임상적인 유용성도 입증했다고 할 수 있습니다.

(100%라는 수치는 논문에서 언급되었기 때문에 그대로 발췌하였는데, 첫번째 판독 단계에서는 인공지능 단독으로 하면 판독을 100% 감소시킬 수 있지만, 실제로는 그 다음 단계에서 합의 판독 및 추가 검사를 해야하기 때문에 의사의 역할이 완전히 없어지는 것은 전혀 아닙니다.)

 

실제로 도입한 이후의 Real-World Data

이 ScreenTrustCAD 연구가 진행된 이후, Capio Sankt Göran Hospital에서는 실제로 2023년 중반부터 유방암 검진에서 한 명의 영상의학과 의사를 루닛의 인공지능으로 대체하였다고 합니다! 이로써, 이 병원은 인공지능을 독립적인 판독자로 활용하여 영상의학과 전문의를 대체한 세계 최초의 병원이 되었다고 하네요. 그리고 이에 따른 후속 연구의 결과를 지난 RSNA 2024에서 포스터로 발표하였습니다. 아직 정식 논문으로 출판되지는 않았지만, 그 결과가 아주 흥미로워서 여기에도 옮겨보겠습니다.

이 연구에서는 인공지능의 도입 전(2018년 7월-2019년 3월)과 도입 이후(2023년 7월-2024년 3월)의 각각 9개월 간의 real-world data를 비교하였습니다.

  • 소환율(recall rate) 11% 감소: 소환율이 2.8%에서 2.5%로 낮아져 불필요한 추가 검사가 감소함.
  • 위양성(false positive) 감소: 거짓 양성 비율이 89.6%에서 78.0%로 감소하여 검진 정확도가 개선됨.
  • 양성 예측도(PPV, Positive Predictive Value) 향상:
    • AI 도입 전 PPV: 16.9%
    • AI 도입 후 PPV: 22.1%
    • 불필요한 소환이 줄어들고, 보다 효율적인 검진 프로세스가 구현됨.
  • 암 발견률(cancer detection rate) 15% 증가:
    • 기존 이중 판독에서는 10만 명당 4.8건의 암이 발견된 반면,
    • AI 도입 후 10만 명당 5.5건으로 증가함.
  • 전체 판독 시간(reading time) 36% 단축:
    • 방사선과 전문의가 보다 복잡한 사례 및 핵심 진단 업무에 집중할 수 있도록 기여

즉, 유방촬영술 판독에 영상의학과 의사 한 명을 루닛의 인공지능으로 대체한 결과, 기존 대비 진단 정확도가 높아짐과 동시에 검진의 효율성 역시 향상되고 있음을 보여줍니다. 특히 환자 소환율 및 암 발견율은 논문에서 언급된 수치보다, 실제 현장에서는 더 크게 개선된 것으로 보입니다. 또한 논문에서는 많이 강조되지 않았던 위양성과 양성예측도 역시 개선이 되었음을 언급하고 있습니다. (통계적인 지표는 나오지 않기 때문에, 개선된 정도가 얼마나 통계적으로 유의미할지에 대해서는 추가적인 데이터를 기다려보는 것이 필요하겠습니다)

 

이 연구의 의의

이 논문은 유방암 검진에 인공지능의 적용에 대해서 평가한 최초의 전향적인 연구이며, 기존의 표준 프로토콜인 영상의학과 의사 2명의 이중 판독과 대비해서, 한 명의 전문의를 인공지능으로 대체하는 것이 비열등할 뿐만이 아니라, 오히려 우월할 수 있다는 것을 보이고 있습니다. 특히 인공지능으로 영상의학과 전문의를 대체함으로써 의료 자원을 절감할 수 있다는 임상적 효용성까지 증명하고 있는 연구입니다. 이에 따라서, 연구자들이 속한 Capio Sankt Göran Hospital에서는 실제로 유방촬영술 판독 과정에서 영상의학과 의사 한 명을 루닛의 인공지능으로 대체하는 파격적인 결정을 내렸습니다.

이 정도가 되면 이 연구는 소위 랜드마크 페이퍼(Landmark paper)라고 불러도 손색이 없지 않나 합니다. 랜드마크 페이퍼로 부르려면, 실제 임상에도 적용이 가능하고, 기존 가이드라인의 변화를 촉발할 수 있을 정도의 임팩트가 있어야 하기 때문인데요. 다만, 이 연구는 스웨덴이라는 한 국가의 특정 검진 시스템 (특히, 필립스의 장비와 루닛의 인공지능)에서만 수행되었기 때문에 국가, 의료 시스템, 영상 장비와 인공지능의 성능 등에 따라서 결과는 달라질 수 있습니다. 따라서 가이드라인 자체를 바꾸기에는 아직 부족할 수 있겠지만, 이러한 논의의 좋은 출발점이 될 수 있는 가치 있는 연구라고 생각합니다.

더 나아가, 의료 인공지능 논문에서는 드물게 이 연구는 의사의 대체(‘replace’)를 직접적으로 언급하고 있습니다. 특히, 최상위 분석 대상(primary analysis)이었던 영상의학과 의사 1명과 인공지능의 이중 판독 뿐만 아니라, 인공지능이 단독으로 판독하는 전략도 검증함으로써, (적어도 이 검진 프로토콜의 첫번째 단계에서는) 의사를 인공지능으로 완전히 대체하는 시나리오도 언급하고 있습니다. 이에 대해서는 본문의 디스커션 파트에서 언급되는 것처럼 책임 소재, 대중이 수용할 수 있을 것인지, 영상의학과의 훈련 방식, 그리고 인공지능의 자격 요건 등에 대한 중요한 질문들이 앞으로 남아 있을 것입니다.

 


Discover more from 최윤섭의 디지털 헬스케어

Subscribe to get the latest posts sent to your email.

Like this Article? Share it!

About The Author

디지털 헬스케어를 통해 의료를 혁신하고 세상을 더 건강하게 만들고자 하는 벤처투자자, 미래의료학자, 에반젤리스트입니다. 포항공대에서 컴퓨터공학과 생명과학을 복수 전공하였고, 동대학원에서 전산생물학으로 이학박사를 취득했습니다. 스탠퍼드 대학, 서울대학교병원 등에서 연구하였습니다. 현재 디지털 헬스케어 스타트업 전문 투자사, 디지털 헬스케어 파트너스 (DHP)를 2016년에 공동창업하였고, 대표를 맡고 있습니다. 지금까지 40여 개의 디지털 헬스케어 스타트업에 투자하였습니다. 네이처의 디지털 헬스케어 분야 자매지 『npj 디지털 메디슨』의 편집위원이자, 식약처, 심평원의 전문가 협의체 자문위원입니다. 『디지털 헬스케어: 의료의 미래』 『의료 인공지능』 『헬스케어 이노베이션』 등을 집필하였습니다.

Subscribe
Notify of
guest

0 Comments
Oldest
Newest Most Voted
Inline Feedbacks
View all comments
error: Content is protected !!
0
Would love your thoughts, please comment.x
()
x