많이 늦었지만, Apple Heart Study 에 대한 논문을 이제라도 간략히 리뷰합니다. 스탠퍼드 대학은 애플의 후원을 받아, 애플워치의 부정맥 탐지 기능에 대한 임상 연구를 수행하였고, 이 연구의 결과는 무려 NEJM에 2019년 11월 실렸습니다. NEJM은 전세계 의학 저널 중에 (사실 모든 분야의 학술 저널 중에) 가장 임팩트 펙터가 높은 초특급 권위지입니다. 이 논문이 나온지 시간이 꽤 많이 흘렀지만, 제가 뒤늦게 읽었습니다.
이 논문은 생각보다 어렵고, 주요 메시지를 파악하는데 시간이 걸렸습니다. 논문 자체가 어렵다기보다는, 무엇보다 임상 연구의 디자인이 다소 복잡하고 특이합니다. 전통적인 세팅 내에서의 RCT를 한 것이 아니라, 소위 pragmatic trial 로, remote, site, decentralized, patient-reported outcome 등을 기반으로 한 아주 특이한 스터디라고 할 수 있습니다.
연구 디자인을 간단히 설명하자면, (질병군, 혹은 위험군이 아닌) 일반인 중에 애플워치를 사용하면서 불규칙한 맥박(irregular rhythm) 에 대한 알람을 받은 사람에게, 심전도 패치를 우편으로 보내어서 스스로 착용하게 했습니다. 이 심전도 패치는 일주일 정도 착용하는 것으로, 이것이 정말 이 사용자가 심방세동이 있었는지를 판별하는 정답의 역할을 합니다. 그리고 이 심전도 패치를 사용하면서 정말로 부정맥이 패치에도 기록되었는지 & 애플워치의 ‘새로운’ 부정맥 알람이 뜨는지를 살펴보았습니다. 특히 이 분석은 심전도 패치를 일상에서 스스로 사용한 이후에 패치를 ‘반납하는’ 사람에 한해서 진행되었습니다. 이후 설문조사 등을 통해서 환자 데이터를 수집했습니다.
언듯보면 복잡할 것 없지만, 실제로 들여다보면 고려할 것들이 상당히 많은 임상 디자인입니다. 원격으로 기기를 보내주고, 사용자가 그냥 알아서 착용하고 반납하고, 데이터를 보내주는 세팅이므로 전통적인 임상 연구와는 달리 컨트롤 되지 않는 것들이 엄청나게 많을 수밖에 없습니다. 실제로 단계마다 환자의 이탈이 엄청납니다. 예를 들어, 기기를 반납하지 않은 사람도 많고, 기기를 반납했음에도 (사용을 제대로 못한 것인지) 데이터가 해석 불가인 경우도 있습니다. 사실 저는 Pragmatic trial 에 기반한 연구를 많이 접하지 못했는데, 이번 연구를 읽고 이게 결코 간단한 일이 아니라는 것을 잘 알게 되었습니다. 아마 연구진도 엄청나게 고민을 했을 것 같고, 실제로 특이하게도 ‘임상 디자인’ 자체에 대한 rationale가 아티클로 먼저 발표되기도 했었습니다.
연구 결과를 해석하는 것에도 좀 애를 먹었는데요. 제가 이해한 바를 몇가지 요약하자면 다음과 같습니다.
-
- 연구에 참여한 사람 (‘일반인’)이 무려 419,297 명이다. 모두 자발적으로 참여한 사람들.
- 이 중에 irregular pulse notification을 받은 사람은 고작 2,161명 밖에(!!) 되지 않는다. 비율로 따지면 0.52% 이다. 그나마 65세 이상으로 따지면 3.1%이지만, 22-40세 군에서는 0.16%에 지나지 않는다.
- 애플워치의 경고를 받은 사람에게, 심전도 패치를 보내어서 심방세동이 있는지를 봤더니, 고작(?) 34% 의 사람에게서만 실제로 심방세동이 발견되었다. (즉, 심전도 패치를 반납한 450명 중에, 153명에 심방세동이 발견되었다.) 이 비율은 65세 이상의 그룹에서는 35%로 소폭 올라간다.
- 심전도 패치를 받은 이후, 애플워치를 ‘동시에 사용하면서’ 부정맥 알람이 실제 부정맥을 정확히 detection 했다고 밝혀진 경우는 84% 였다. 즉 양성 예측율 (positive predictive value)이 0.84 이다. 그런데, 이 양성예측율이 실제로 어떻게 나왔냐면, 애플워치의 알람을 받은 86명 중에 72명이 심전도 패치로 실제 심방세동이 있었다는 것을 검증한 것이다. 이 연구에 참여한 사람이 42만명 가까운 것을 고려하면, 100명도 안되는 것은 너무 적은 수치이다.
- 임상 연구 디자인의 특성상 환자의 이탈이 많았다. 처음 애플워치의 알람을 받은 2,161명의 사용자 가운데, 실제로 심전도 패치를 사용하고, 반납까지 한 사람은 고작 21% (450명) 정도에 그쳤다. 심지어 이 중에서도 연구 마지막의 survey까지 마친 사람은 56.4% (254명)에 지나지 않는다. 즉, 애플워치 최초 알람을 받은 사람들 중 상당수의 데이터가 이 연구의 결론에는 포함되지 못한 것이다.
어떻게 보면 신기하기도 하지만, 또 어떻게 보면 결론이 좀 초라합니다. 환자나 위험군이 아닌 일반인을 대상으로 하는 임상 연구의 목적과 디자인의 특성 때문이기도 하고, 또 한 편으로는 심방세동이라는 질병의 특성에 기인하는 바도 있는 것으로 보입니다. 즉, 증상이 겉으로 나타나지 않거나, 매우 불규칙하게 나타나는 양태 때문에 연구가 더욱 어려워지는 측면이 있습니다.
이 논문의 성과를 전통적인 의학의 입장에서 보면, 여러가지로 평가절하될 가능성이 높아 보입니다. 그 비싼 애플워치를 구매해서 일반 대중이 사용했을 경우에 부정맥 알람을 받을 환자가 고작 0.52% 에 지나지 않고, 주 사용층인 젊은 사용자들에서는 비율이 더 낮다면, 이 기능이 무슨 쓸모가 있는가? 알람을 받은 사람 중에 34%만 진짜 부정맥이었다고? 의학적인 효용은 거의 없고, 오히려 거짓 경보를 양산해서 의료 리소스만 낭비하는 것 아닌가? 하는 지적을 할 수 있을 것입니다. (참고로 이 논문에는 민감도, 특이도, 위양성 등의 수치가 직접 나오지는 않습니다. 추정을 해볼 수는 있지만, 임상 디자인의 특성상 이를 직접 계산하기가 어렵습니다.)
실제로 이 논문이 출판된 이후에 에디터에게 보내는 독자들의 코멘터리가 빗발쳤던 것으로 보입니다. 출판 6개월 이후에 실린 독자들의 코멘트가 무려 4편이나 실렸는데, ‘전통적인 임상 연구자’들의 입장에서 이 연구의 가치가 적다며 비판 일색입니다. 사실 저는 이 시각에 동의하기도 하지만, 또 한편으로는 동의하지 않기도 합니다.
이 연구의 가치를 ‘전통적인 임상 연구자’의 시각에서만 바라보는 것이 과연 옳은 일일까요? 실제 최근 발표된 후속 연구 중에도 홀터모니터 등 전통적인 의료기기와 비교하여 애플워치의 임상적 효용이 적다는 결론을 내리는 경우도 있습니다. 새로운 기술을
하지만 이런 기준으로만 바라본다면, Apple Health Study가 가지는 중요한 의미를 놓치는 것이 될 것입니다. 이 점은 논문 출판 당시의 Editorial인 “Watched by Apple” 에 잘 드러납니다. 이 논문이 NEJM에 처음 발표되었을 당시, NEJM의 에디터는 이 연구가 왜 중요한지에 대해서 아래와 같은 부분을 코멘트합니다.
-
- 이 논문의 메인 메세지는 기술에 대한 테스트가 아니라, 연구가 어떤 방식으로 진행되었고, ‘왜’ 진행되었는지에 대한 것이다. 일반 대중의 피트니스 트래커에 대한 인식이 올라가면서 여기에 대한 임상적 가치에 대한 검증이 필요한 상황이었다.
- 40만 명 이상의 일반 사용자들이 ‘질병이 있기 때문이 아니라’, 신기술에 ‘호기심이 있고’, 심혈관 모니터링을 쉽게 할 수 있다는 이유로 이 연구에 참여했다. (지금까지 이런 방식의, 이런 규모의 연구가 있었던가?)
- 기존에 알려진 심방세동-뇌졸중의 관계를 새롭게 파악하기 위해서 이런 연구가 의미 있다. 기존의 연구들은 traditional, less-sensitive 기기에 기반한 것이었기 때문에, 심방세동에 대해서 우리가 알고 있는 지식은 제한적인 것이다. 특히 long-term monitoring에 의한 심방세동에 대해서는 아직 밝혀지지 않은 것이 많다. 이 연구를 통해서, 심방세동에 대한 새로운 지식이 밝혀질 수 있다.
2018년 9월 애플워치에 부정맥 탐지 기능이 추가된다는 것이 FDA 인허가 소식과 함께 처음 발표되었을 때에는 의료계에서 (심지어 에릭 토폴 박사 조차도) 우려를 나타낸 바 있습니다. 즉, 위양성 때문에 의료 리소스가 낭비되고, 환자들의 불필요한 걱정을 유발할 것이라는 우려가 많았습니다. 하지만 일단 현실에서는 (적어도 아직까지는) 그런 혼란이 일어나지 않고 있는 것으로 보입니다.
웨어러블이 의학적으로, 임상적으로 어떤 의미를 가질지는 불분명하며, 심방 세동과 같이 유병율이 낮은 질병에 대해서 일반 대중에게 큰 의미를 가지는 경우는 많지 않을 수 있습니다. 하지만 이런 기술, 기기에 대한 가치를 ‘어떻게 증명할 것인가’, ‘어떤 가치를 증명할 것인가’에 대해서는 기존과 다른 시각이 필요해보이기도 합니다.