의료 인공지능 스타트업 루닛이 이번에 엄청 좋은 논문을 JCO(Journal of Clinical Oncology)에 내셔서 휘리릭 읽고 요약해봅니다. 루닛의 병리 인공지능 Lunit SCOPE를 이용해서, NSCLC 환자에서 면역항암제(ICI)의 반응성을 예측할 수 있으며, 기존의 바이오 마커인 PD-L1의 한계를 보완할 수 있다는 가능성을 보여주는 연구입니다.
참고로, JCO는 임상 종양 분야의 최고 권위지로 IF가 무려 44점입니다. (이번 연구가 retrosepctive이고 환자수에 약간 제한이 있는데도 JCO에 나온 걸 보면, 이런 부분이 보완된 연구는 NEJM 급일 것 같네요.)
키트루다로 대표되는 면역항암제는 여러 암종에서 기존 항암제 대비 우월한 효과를 보여주었습니다. 다만, 이 약이 (너무 고가임에도 불구하고) 환자에게 정말 효과가 있을지 예측하기가 어렵다는 것이 단점이었습니다. 현재 인정되는 유일한 바이오마커는 PD-L1 인데, 요놈도 완벽하지가 않습니다. PD-L1 TPS(Tumor Progression Score)가 >50% 인 경우에만 chemo 대비 TRR, OS 등이 좋게 나오고, 1-49% 환자들에는 키트루다와 chemo의 outcome에 유의미한 차이가 없습니다. 만약 PD-L1 TPS 1-49%의 환자의 반응성을 예측할 수 있는 바이오마커가 있으면 정말 좋겠지요.
이론적으로는 Tumor infiltrating lymphocytes (TIL) 수치가 좋은 바이오마커일 가능성이 높다고 여겨져왔습니다. 근데 TIL을 병리 슬라이드 전체 (WSI)에서 정량적으로 측정하는 것은 사람이 하기에는 너무 노가다(labor-intensive)이기도 하고, 측정자마다 차이가 커서 문제였습니다. 그런데 이런 문제는 인공지능이 적용되기에 안성맞춤이지요.
Lunit SCOPE는 병리 슬라이드에서 TIL을 정량적으로 측정하여 세 가지 면역학적 형질(IP)로 구분합니다. (루닛의 관련 연구 보도자료를 찾아보니, 이 세가지를 각각 면역 활성, 면역 제외, 면역 결핍으로 번역하여 표현하시네요. 영어 치기 귀찮으니 아래에서는 저도 한글로 쓰겠습니다.)
- immue-inflamed (면역 활성)
- immune-excluded (면역 제외)
- immune-desert (면역 결핍)
만약, 정말 TIL이 좋은 바이오마커이고, Lunit SCOPE이 이를 병리 슬라이드(WSI)에서 제대로 정량화하여, 면역학적 형질(IP)을 잘 구분했다면, 면역 활성/제외/결핍 환자 세그룹 사이에 대한 키트루다의 반응성 차이가 생기겠지요.
데이터를 분석해보니 실제로 그랬습니다! 면역 관문 억제제(Immune Checkpoint Inhibitor, ICI)인 키트루다 monotherapy 로 치료 받은 적이 있는 삼성서울병원과 분당서울대병원의 NSCLC 환자 약 299명과 219명을 분석하여, 면역 활성/제외/결핍 세가지 그룹으로 나눠보니 정말로 PFS와 OS에서 유의미한 차이가 있었습니다. (위 그림)
혹시나 이런 구분이 면역항암제와 상관 없이 general prognostic marker가 아닐까 하여, (면역항암제 치료 안 받고) Platinum-Based Chemotherapy 받은 환자들에게 적용해보니 그런 경향이 나타나지 않았습니다. (근데 OS는 활성/비활성 그룹 간에 쬐금 차이가 나는 것 같기도 한데.. 통계적으로 유의미하지 않다고 봐야 할까요?)
더 재미있는 건, PD-L1 TPS 와 인공지능 스코어를 함께 사용할 때입니다. 기존에 바이오마커로 활용되고 있지만 완전하지 않은 PD-L1 TPS를 Lunit SCOPE 스코어가 효과적으로 보완할 수 있는 가능성을 보인 것입니다. (아래 그림)
일단 PD-L1 TPS 50% 이상 / 1-49% / 0% 의 세가지 그룹에서 각각 면역 활성 / 비활성 그룹을 또 나눴습니다. 여기에서, PD-L1 TPS가 50% 이상인 그룹은 면역항암제에 대한 반응성이 있다는 것이 알려져 있으니 크게 문제가 안됩니다.
문제는 TPS 1-49% 그룹에서 반응성 예측율이 낮다는 것이지요. 근데 이 그룹에서 Lunit SCOPE으로 면역 활성 / 비활성을 세분화하면, 놀랍게도 활성 그룹의 반응성이 비활성 그룹보다 ORR, mPFS가 크게 높습니다. (심지어, n수가 크지는 않습니다만, 사실 TPS >50% 그룹에서 면역 비활성 그룹보다, TPS 1-49% 그룹에서 면역 활성인 그룹의 ORR, mPFS가 더 높습니다!)
더 나아가서, PD-L1 TPS 1-49% 그룹에서 면역항암제의 반응성에 대한 예측 퍼포먼스를 ROC 커브로 그려서 AUC를 계산해보면, PDL1 TPS는 AUC=0.556, 그러니까 동전 던지기 보다 쬐금 좋은 수준인 반면, Lunit SCOPE는 AUC=0.761 로 꽤 높게 나옵니다. 다시 말해, 이 인공지능이 앞서 언급한 “PD-L1 TPS 1-49%의 환자의 반응성을 예측할 수 있는 바이오마커가” 될 수 있는 가능성을 보인 것이지요.
그리고 한가지를 더 덧붙이자면, (이 데이터는 환자의 숫자가 적어서 디스커션에 몇 문장으로만 언급되어 있습니다만), PD-L1 TPS 1-49%의 환자 중에서 first-line 으로 면역항암제를 쓴 10명의 환자의 경우 면역 활성군과 비활성군을 비교하면 TRR이 무려 66.7%와 0% 로 크게 차이가 납니다. n수가 적기는 합니다만 놀라운 차이이지요. 이 연구 결과는 후속 연구를 통해 이 인공지능을 바이오마커로 활용할 경우, 면역항암제를 first-line therapy로 활용할 수도 있다는 식으로 스토리를 전개해갈 수도 있을 것 같습니다. (주요한 후속 연구 주제일 수 있지 않을까 싶습니다.)
루닛은 그동안 병리 데이터를 인공지능으로 분석함으로써, 면역항암제의 반응성을 예측하는 동반진단 (companion diagnositics)으로 활용할 수 있다는 가능성을 여러 초록 등을 통해서 보여 왔습니다. 이번 논문은 그런 연구 결과들 집대성해서 출판한 것으로 보이는데요. 루닛이 그동안 주장해왔던 것에 대한 proof-of-concept 를 훌륭하게 해낸 연구라고 생각합니다.
연구에 상당히 재미있는 지점들이 많고, 후속 연구를 통해서 더 임상적으로 임팩트를 보여줄 수 있는 부분이 많아 보여서 앞으로의 연구 결과들도 기대가 됩니다. 이 연구 후속으로 어떤 연구들이 진행되고 있는지 나중에 루닛 분들 만나면 한번 여쭤봐야겠습니다. 좋은 논문 내신 것 축하드립니다!