의료 인공지능이 의사에게 얼마나/어떻게 도움이 되는지를 판단하는 것은 매우 중요하고도 어려운 문제입니다. 최근 Nature Medicine에는 인공지능이 영상의학과 의사에게 판독에 어떻게/얼마나 도움이 되는지를 분석한 논문이 실렸습니다. 그 결론은 결국 사람에 따라서, 질병에 따라서 heterogeneous 하다는 것입니다.
연구자들은 140명의 영상의학과 전문의에게 324명의 환자에 대한 흉부 엑스레이의 15가지 병변에 대해서, 인공지능의 도움을 받고서/받지 않고서 진행한 판독 결과를 세부적으로 상세하게 분석하였습니다.
사실 이 논문은 abstract의 내용만 보고 쉽게 생각하고 읽기 시작했는데, 분석 방법은 상당히 복잡해서 읽는데 애를 좀 먹었습니다. 분석을 위해서 다양한 방법을 쓰고, 분석 지표도 여러가지를 자체적으로 만들어내었는데요, 그만큼 ‘인공지능이 의사에게 어떤 영향을 주는가’를 분석하는 것 자체가 복잡성이 높은 이슈라는 것을 반영하는 것 같습니다.
결과적으로 이 논문은 기존의 선행 연구들에서 제안되었던, ‘인공지능이 이런 상황에서 도움이 된다’는 결론의 많은 부분을 이 연구는 뒤집어버립니다. 어찌보면 당연한 이야기일 수도 있고, 더 현실을 반영한다고도 볼 수 있을 것 같은데요. 인공지능이 어떤 의사에게, 어떤 병변에 대해서, (항상) 도움이 된다는 결론이 딱 떨어지지가 않습니다.
예를 들어, 기존의 연구들에서는 의사의 경력이나, 전문성 등이 인공지능의 판독 보조가 얼마나 도움이 되는지에 영향이 있다는 것이 있었습니다. 하지만 이 논문에서는 의사의 경력이 얼마나 긴지, 흉부 영상의학에 대한 세부 전공 여부, 인공지능 툴에 대한 경험 등에 대한 영향이 모두 non-significant (통계적으로 유의미하지 않다)고 나옵니다.
의사의 실력 (AI 도움을 받지 않았을 때의 오류율)이 좋을수록, 인공지능의 보조가 더 크게/적게 도움이 되는지를 보았더니, 이것도 non-significant 했고요. 다만 원래 실력이 좋은 의사가 인공지능의 보조를 받았을 때에도 더 실력이 좋게 나왔습니다.
또한 인공지능이 부정확할수록, 의사의 판독에는 (대부분의 경우에) 악영향을 미쳤습니다. 더 나아가, 인공지능이 병변을 underestimate 할수록 판독에는 긍정적인 영향을, overestimate 할수록 판독 정확도에는 부정적인 영향을 미쳤습니다.
흥미로운 점은, 이 논문에서 나오는 분석 결과들 중에 대부분이 상관관계가 없거나, 통계적으로 유의미하지 않다(non-significant)는 점입니다. 전체 데이터를 통으로 놓고 보면 통계적으로 유의미하게 보이는 것도, 세부 질병별로 나눠서 보면 통계적으로 유의미하지 않거나, 오히려 경향이 완전히 반대로 나오는 경우도 있습니다. (예를 들어, 인공지능이 부정확할수록 몇몇 병변에 대해서는 판독 성과가 유의미하게 개선되는 경우도 있었습니다)
그래서 이 논문의 결론이 인공지능의 영향은 의사별로 heterogeneous 하다는 것이며, AI를 의료 현장에서 가치를 극대화하기 위해서는 개별적인 임상의에 맞는 차별화된 접근이 필요하다는 결론을 내립니다. (어찌보면 무책임한 결론이지만, 사실 현실은 복잡계이니까요.)
이처럼 인공지능의 의학적 효용을 평가하는 것은 아주 어려운 일입니다. 궁극적으로는 환자의 치료성과(outcome)을 유의미하게 개선한다는 것을 보여야 하는데, 여기에는 단순히 ‘정확한’ 인공지능을 개발하는 것 이상으로 많은 변수들이 작용합니다.
인공지능이 궁극적으로 환자의 치료 성과를 개선한다면, 그 중간 과정에서 반드시 달성해야 할 것이 바로 의사의 의학적 의사결정 (영상의학과 의사에게는 판독)을 더 잘 할 수 있게 해주는 것일텐데요. 이 연구는 그 영향이 의사별로, 질병별로 heterogeneous 하다는 것을 보여주면서, 더 세부적으로 들어가면 상당히 복잡다단한 양상이 나타남을 증명합니다. 이 연구는 인공지능의 의학적 효용을 증명한다는 것이 얼마나 어려운 일인지를 잘 보여주고 있습니다.