세상에는 좋은 의학 저널에 실린, 훌륭한 (인공지능/머신러닝 기반의) 예측 모델이 수없이 많은데요. 하지만 이들 대부분은, 혹은 거의 모두는, 실제 임상 현장에서 사용되지 못하고 사장되고 맙니다. 그런 논문에서는 여러 미사여구를 활용해서 임상 활용에 대한 가능성을 제시함에도 불구하고 말이지요. 대체 왜 그럴까요?
최근 npj Precision Oncology에 실린 이 아티클은, 그 이유에 대해서 신랄하면서도 현실적인 인사이트를 전해주고 있습니다. 저자는 캠브리지 대학의 연구자로, 지난 20년 동안 의료 예측 모델을 개발하고 이를 사업화하는 과정에서 시행착오를 겪으면서 얻은 인사이트를 가감없이 전하고 있습니다. 소위 정말 뼈때리는(?) 명언들이 많은데요. (서준교 선생님께서 알려주신 아티클입니다. 덕분에 감사히 잘 읽었습니다!)
최근에 의료 인공지능 분야에서 본인의 연구 성과에 기반하여 의사 창업, 교수 창업들이 많은데, 이 아티클을 꼭 읽어보시라고 권하고 싶습니다. 창업자 뿐만 아니라 투자자들도 이런 팀들을 심사할 때 체크해봐야 할 사항들을 많이 배울 수 있는 아티클입니다.
저자는 지난 20년 동안 본인의 연구를 임상 현장에서 사용되는, ‘clinical impact’가 있는 툴로 만들기 위한 과정에서 아래와 같은 교훈을 얻었다고 언급하고 있습니다. 저는 아주 요약해서 서술할텐데, 관심이 있으신 분들은 원문을 읽어보시기를 권합니다.
- 교훈 1. 학계에서의 성공과 임상 현장에서의 성공은 다르다.
- 학계에서의 성공은 논문, 학술 과제, IF, 인용수 등으로 설정되지만, 임상 현장에서의 성공은 ‘얼마나 많은 병원에서, 얼마나 자주 사용되는가’, 그리고 궁극적으로는 ‘얼마나 많은 환자에게 도움을 주었는가’로 측정된다.
- 학계와 임상 현장에서의 인센티브 자체가 다르다. 학계의 커리어는 개발한 모델의 novelty가 중요하다. 즉, 논문으로 낸 모델을 정말 임상적으로 의미 있게 implement 하기 위해서 추가적으로 노력하는 것보다, 그냥 (또 하나의 의미 없는) 모델을 새로 개발해서 논문을 내는 것이 학계 커리어에 (교수 승진에) 더 도움이 된다.
- 교훈 2. 루틴한 진료에서 확보할 수 있는 데이터를 사용해야 한다.
- 연구 환경과 일반 진료 환경에서 확보할 수 있는 데이터가 너무 다르다. 연구실에서는 무슨 TCGA 같은 곳에서 DNA, RAN, proteomics 데이터를 통합해서 사용할 수 있지만, 일반적인 임상 현장에서는 이런 데이터를 구할 수 없다. Gene expression 데이터를 활용한 모델이 오랫동안 연구 성과가 있었지만 임상에서는 성공적으로 활용된 경우가 (몇몇 예외를 제외하면) 거의 없는 것도 이런 이유.
- 여기서 Take Home Message: 모델에 포함할 데이터를 잘못 선택하면, 모델을 트레이닝 시키기도 전에 임상 현장에서의 유용성은 이미 실패한 것이다.
- 교훈 3. 성공적인 모델은 결국 ‘액션’으로 연결되어야 한다.
- 모델의 결과가 임상의가 명확한 행동으로 옮길 수 있도록 직결되어야 한다. 유방암에서 subtype으로 나눠주는 PAM50은 ‘행동’으로 직결되지 않았고, 나중에 ProSigna가 이 지표를 수정해서 고위험 환자군에게 adjuvant chemo를 권고하는 prognostic score로 제시된 후에 그제서야 임상적으로 유용해졌다.
- 의사가 알고 싶어하는 것은 이런 것들이다: ‘내가 이 환자를 돕기 위해서 무슨 행동을 해야 하는가?’, ‘이 환자에게 무슨 약을 처방해야 하는가?’. 이 질문에 예측 모델이 답을 할 수 있어야만, 그나마 성공할 수 있는 일말의 가능성이라도 생긴다.
- 교훈 4. 대형 병원에서만 쓸 수 있으면 안 된다.
- 임상적 임팩트를 가지려면, 스탠퍼드, 캠브릿지 대학 병원 같은 곳에서만 사용할 수 있으면 안 된다. 처음에는 ‘홈그라운드’에서 연구 많이 하는 의사들과 협력을 해야 하지만, 진짜 임팩트를 만드려면 결국 이외의 환경에도 있는 의사들이 유용하다고 느껴야 한다.
- 교훈 5. (결과적으로) 임상에서 성공하기가 겁나 어렵다.
- 병원은 혁신적인 연구 성과를 받아들여야 할 의무가 있기는 하다. 하지만 병원은 보수적이고, 엄격한 규제를 받으며, 기존에 정착되어 있는 진료 방식에 변화를 주는 것은 결국 환자들에게 리스크가 된다. 더구나, 병원들은 펀딩이 항상 부족하고(..), 의사들은 과중한 업무에 시달린다.
- 그렇기 때문에, 임상적 유용성에 대해서 유의미한 근거들을 계속해서 축적해나가야만, 그제서야 어느 병원 하나라도 이걸 써줄랑 말랑하게 된다. 학계의 연구자들은 이런 지점에서 엄청난 좌절을 느낀다. 연구 결과물이 임상적으로 사용되기까지 extra one mile이 아니라, extra two, three mile이 남았다고 느끼게 되기 때문이다.
그리고 논문의 말미에는 Predict Breast 라는 임상적으로 아주 성공적인 prediction tool 에 대한 사례가 언급되고 있습니다. 이는 early invsive breast cancer 환자들이 수술 이후에 생존율을 높이기 위해 어떻게 치료해야 할지를 알려주는 모델인데요. 거의 모든 의사가 확보할 수 있는 데이터를 사용하는데 (나이, HER2 status, 종양 크기 등), 세계적으로 250만 번, 지난 1년 간 45만 번 사용되었다고 하네요.
이런 게 바로 임상적인 임팩트를 가지는 모델일텐데요. 근데 이 연구는 high impact journal 에 실린 적도 없고, 연구 지원 사업에서도 떨어져서 펀딩도 못 받아서, 기부된 자선 기금을 통해서 인허가 비용을 충당했다고 나옵니다. 즉, 현재의 연구 과제 지원 사업의 선정 기준이 임상적 임팩트를 가진 연구를 제대로 골라내지 못할 수 있음을 강조하고 있습니다. 여튼 이 연구를 주도한 Paul Pharoah가 제시한 체크리스트가 아티클에 Box로 언급되고 있으니, 관심 있으신 분들은 참고해보시면 좋겠습니다.
제 요약에서는 충분히 옮기지 못했지만, 아티클의 본문에는 정말 뼈때리는 신랄한 표현들이 많습니다. “I think your model is useless”, “almost none of these tools ever help anyone” 같은 말들이 심심찮게 나오는데요. (사실은 제목부터도 그렇지요.) 그만큼 학술적인 연구에서 개발된 모델이 임상적으로 유용성을 가지는 것이 어렵다는 것을 현실적으로 가감 없이 잘 보여주고 있습니다.
관련 업계에서 일하는 분들께는 꼭 한번 읽어보시면 좋을 아티클인데요. 사실 이렇게 ‘글로 배워서’ 여기에 나오는 실수나 시행착오를 면할 수 있다면야 좋겠습니다만, 현실은 그렇지 않다는 것이 가장 큰 문제일 것이라 생각합니다. 그래도 이런 어려움을 미리 글을 통해서라도 알아둔다면, 최소한 각오를 미리 다지거나, 그런 각오가 없는 분들은 차라리 시작하지 않는 (현명한) 의사결정을 하시는 계기라도 되지 않을까 합니다.