최근 NEJM AI와 하버드 비즈니스 리뷰에 흥미로운 아티클이 실렸습니다. 의료 분야의 생성형 인공지능의 규제와 인허가에 관련하여 완전히 새로운 규제 패러다임이 필요하다는 주장입니다. 특히 생성형 의료 인공지능을 단순히 ‘의료기기’가 아닌 ‘새로운 지적 존재 (novel forms of intelligence)’로서 규제해야 할 필요성을 제안하고 있습니다.
이런 과감해보이지만, 나이브해보이기도 하고, 한편으로는 대책없어 보이는 주장은 사실 누구나 던질 수 있는 것입니다. 하지만 이 아티클의 저자가 Bakul Patel 이라는 것을 보면 갑자기 자세를 고쳐 앉아서 진지하게 이 글을 다시 읽게 됩니다.
Bakul Patel은 지난 몇년 동안 FDA에서 디지털 헬스케어와 관련한 다양한 규제 혁신을 이끌었던 분입니다. 업계 사람들에게는 잘 알려진 Pre-Cert 도 이 분의 작품이었고, FDA의 디지털 헬스 전담 부서인 Digital Health Unit을 만들기도 하고, 이를 Digital Health Center of Excellence로 정식 직제화 시켜서 Founding Director를 맡기도 했지요. 또 지난 2022년부터는 FDA를 떠나 놀랍게도 구글에 합류하여 글로벌 디지털 헬스 전략과 규제를 담당하고 있는 분이기도 합니다.
즉, 디지털 헬스케어의 규제와 관련하여 가장 혁신적인 고민을 했던 분이, 생성형 의료 인공지능과 관련해서는 완전히 새로운 패러다임의 규제 방식이 필요하다고 주장하고 있는 것이지요.
의료 LLM 규제의 어려움
사실 이런 주장을 하는 배경 자체는 그리 새롭지는 않습니다. 전통적인 규제 방식으로 의료기기는 특정한 ‘하나의’ 사용 목적에 대해서 안전성과 효과성을 임상 시험을 통해 검증하고, 인허가를 받게 됩니다.
하지만 ChatGPT 등의 LLM은 다양한, 무한대의 질문과 요청에 대해서 답해주기 때문에 ‘하나의’ 사용 목적을 정의하는 것이 불가능합니다. 즉, LLM이 의료 목적으로 사용될 때, 전통적인 의료기기 인허가 프레임워크를 적용하는 것이 맞지 않다는 것이지요. 즉, 의료 LLM은 규제를 해야 하는데, 기존 방식으로는 규제를 할 수가 없는 아이러니가 발생합니다. (관련해서는 예전 포스팅, “ChatGPT를 의료기기로 규제할 수도, 안 할 수도 없다?“를 참고하시기 바랍니다)
이 지점에서 고민이 시작됩니다. LLM은 기존의 의료기기와 속성이 근본적으로 다르기는 하지만, 그래도 기존의 규제 프레임워크 속에 어떻게든 껴맞출 것이냐, 아니면 정말 완전히 다른 프레임워크를 만들어내는 쪽으로 갈 것이냐. 사실은 어느쪽도 쉽지 않습니다.
우리가 후자의 길, 즉 LLM을 기존 의료기기와 근본적으로 다르다는 것을 인정하고, 새로운 규제를 하는 것을 택한다면 그 자체로 전통적인 의료 기기의 규제 방식과는 완전히 다른 새로운 프레임워크를 고안해내어야 합니다. (규제기관에서 이 결정을 한다는 것 자체도 절차적으로 쉬운 일이 아닐 것입니다.)
더 나아가서, 구체적으로 그 새로운 규제 프레임워크를 무엇으로 할 것이냐는 더욱 문제입니다. 실제로 (최근에 저도 참여하고 있는 한국 식약처의 ‘생성형 인공지능 기반 의료기기’ 전문가 협의체에서 고민하고 있는 것입니다만) 생성형 의료 인공지능의 성능을 어떻게 평가할 것인지는 결코 쉬운 문제가 아닙니다.
이것이 얼마나 어렵냐면, 이 기술과 규제를 모두 잘 아는 분들 중에서도 “이거 정말 인간 의사 처럼 그냥 시험을 치게 해야 하는 것 아냐?” 하는 이야기를 사석에서 하시는 분이 계셨을 정도니까요.
생성형 의료 인공지능을 ‘새로운 지적 존재’로서 규제하자
그런데 정말로 Bakul Patel의 이 아티클에서는 이런 주장을 과감하게 합니다. 생성형 의료 인공지능을 ‘새로운 지적 존재 (novel forms of intelligence)’로 인정하면서 그 자격 요건을 검증해야 한다는 것입니다.
이 주장은 너무도 새롭고 파격적으로, 혹은 과격하게 느껴질 수도 있겠습니다만, 잘 생각해보면 우리는 ‘지적 존재’를 의학적으로 훈련시키고, 그 결과 생성된 의학적 실력을 검증해온 오랜 역사와 경험을 가지고 있습니다. 바로 인간 의사를 트레이닝 시키고, 의사 면허와 전문의 자격을 주기 위해서 시험을 쳐왔기 때문입니다.
아닌게 아니라, 이 아티클에서는 인간 의료인의 실력과 자격요건을 검증하는 방식을 LLM에도 활용해야 한다고 주장하고 있습니다. LLM이 실제 의사와 임상의들을 양성하기 위한 과정을 기반으로 훈련을 받을 수도 있고, 또 특정 교육 머티리얼에 노출시킨 다음, 그에 맞는 시험을 통해서 실력을 검증할 수도 있습니다.
또한 LLM을 일정 기간 동안 의료 전문가들이 관찰하고, 감독해서 모델을 더 개선하는 것도 방법입니다. 의대 교수들이 인턴, 레지던트, 펠로우 과정의 의사들을 교육하는 것과 마찬가지로 말입니다. 더 나아가서, 최근에 여러 진료과에서 보드를 유지하기 위해서 주기적으로 교육을 받고 재인증을 받아야 하는 것처럼, LLM도 주기적인 retraining과 retesting을 거쳐서 자격을 유지하는 것을 제안하고 있습니다.
더 나아가, 여기에는 결국 LLM의 할루시네이션(환각) 문제, 동일한 질문(프롬프트)에 대해서도 여러번 물을 때마다 다른 답을 줄 수 있기 때문에 일관성을 유지하는 문제, 모델의 투명성과 편향성 이슈 등까지도 고려되어야 합니다.
아래의 항목들은 NEJM AI 논문에서 제안된 구체적인 방안들입니다:
- 일반 또는 전문 임상 실무와 관련된 특정 정보에 대한 필수 교육 이수
- 의사 면허와 보드 인증 요구 사항을 모델로 한 관련 임상 시험에서 합격점 취득
- 임상 실습 기간 동안 교수가 지도하는 의사 연수 과정처럼 output 및 권장 사항을 지도하는 임상 교수의 감독 하에 검토하고, 필요시 수정하는 과정
- 생성형 인공지능 기반 임상 애플리케이션을 최신 임상 및 과학 정보로 정기적으로 업데이트하며, 이에 따라 재시험과 재평가를 실시하고 새로운 감독하의 임상 실습 기간을 거침
- 생성형 인공지능 기반 임상 애플리케이션이 제공하는 의료 서비스의 질을 규제 당국에 주기적으로 보고하고, 특정 기준 이하로 떨어질 경우 필요한 시정 조치를 시행
- 이러한 평가 결과를 대중에게 공개
의료 인공지능 규제의 새로운 패러다임
이러한 규제 방식이 완벽한가? 그렇지 않습니다. 이런 규제 방식을 통해서 인허가 받은 모델이 완벽히 효과적이고 안전할까요? 역시 그렇지 않습니다. 하지만 이것은 인간 의사를 양성하고, 면허를 부여하고, 진료를 하는 과정에서도 마찬가지입니다. 의사 면허 시험이나 보드 시험에서도 만점을 받는 사람은 소수이고, 또 가장 유능한 명의들조차 가끔은 실수를 할 수 있습니다. 결국은 인간이기 때문이지요. 그렇기 때문에 생성형 인공지능을 ‘새로운 종류의 지적 존재’로 정의한다는 가정 하에서만 이런 규제 방식을 활용할 수 있습니다.
이를 보면 여러 생각이 듭니다. 기존 패러다임의 인공지능 (소위 generalist AI와 대비되는 specialist AI의 경우)에는 의료 분야에서 ‘인간 의사가 완벽하지 않기 때문에’ 이 (특정 문제에 대해서) 인간 의사를 보조해줄 수 있는 인공지능을 표방했습니다. 그래서 인허가 측면에서도 정확도를 극한까지 끌어올리는 것이 필요했지요.
그런데 생성형 인공지능이 나오게 되면서 ‘(기존의 지적 존재인) 인간 의사도 완벽하지 않기 때문에’, 새로운 지적 존재인 생성형 인공지능도 완벽할 수 없다…는 가정을 만들고 새로운 규제 방식을 고려해야 한다는 주장까지 나오게 된 것입니다.
앞으로는
이런 주장이 정말로 받아들여지게 될지는 알 수 없습니다. 어찌보면 헬게이트(?)를 여는 것처럼 큰 파장과 많은 추가 논의, 그리고 실무적으로 많은 추가 업무가 만들어지는 일이 될 수도 있습니다. 하지만 여러 규제 전문가들도 느낌적 느낌으로는 ‘결국은 이러한 방식으로 규제하는 수밖에는 없지 않을까’ 하던 것을 Bakul Patel 같은 오피니언 리더가 과감히 주장하고 나섰기 때문에 이제는 이러한 주장을 진지하게 고려하지 않을 수가 없을 것 같습니다.
결국 의료 기술의 수준은 규제의 수준에 수렴할 수밖에 없습니다. 생성형 인공지능과 같은 거대한 기술적 혁신의 가치를 극대화 하려면, 그 기술의 잠재력을 충분히 발휘하게 하면서도 안전을 담보할 수 있는 규제 혁신이 필요합니다.