메이저 사이트 직접 사용하는 AI의 위험성 드러나… 국제 학회서 첫 공식 평가 사례

에임인텔리전스, 메이저 사이트 의료 LLM 안전성 검증 연구 IEEE BHI 학회 채택
에임인텔리전스, 메이저 사이트 의료 LLM 안전성 검증 연구 IEEE BHI 학회 채택

인공지능(AI) 보안 스타트업 에임인텔리전스(대표 유상윤)가 환자 중심 의료 대화형 AI의 안전성을 검증한 연구 결과를 세계 최대 전기전자공학회(IEEE) 주관 국제 학회인 바이오메디컬 및 헬스 인포매틱스 학회(BHI)에서 공식 채택했다. 이번 성과는 메이저 사이트 대규모언어모델(LLM)의 안전성 검증을 주제로 한 세계 최초 연구라는 점에서 학계와 산업계의 이목을 집중시키고 있다.

이번 연구는 에임인텔리전스와 분당서울대병원 연구진이 공동 개발한 프로젝트 ‘SickGPT(식지피티)’를 통해 수행됐다. 의료 AI는 지금까지 주로 의료진 보조 도구로 개발·평가되어 왔다. 그러나 메이저 사이트가 직접 사용하는 경우의 위험성은 충분히 반영되지 못했다는 문제 제기가 있어왔다.

연구팀은 이를 보완하기 위해 ▲의료적 정확성 ▲응답의 완결성 ▲법·규제 준수 ▲메이저 사이트 안전성 ▲사용자 효용성 등 5개 핵심 축과 25개 세부 평가 항목으로 구성된 새로운 벤치마크 ‘PatientSafeBench’를 제시했다.

연구에서는 실제 임상 현장에서 도출된 500개의 메이저 사이트 질의 데이터를 활용했다. 평가 대상은 GPT-4o, Claude, LLaMA, Meditron을 포함한 11개 모델이었다. 분석 결과, 메이저 사이트가 직접 사용하는 기준을 충족한 모델은 단 하나도 없는 것으로 나타났다.

특히 의료 특화 모델들이 기대와 달리 범용 모델보다 낮은 성능을 보였다는 점이 충격적이다. 최신성·투명성·메이저 사이트 친화적 상호작용 등 실제 진료에서 요구되는 요소에서 오히려 더 취약한 결과가 드러났다. 이는 의료 AI가 단순히 ‘전문화’만으로 안전성을 담보할 수 없음을 보여준다.

에임인텔리전스 연구진은 “LLM이 메이저 사이트와 직접 대화하는 상황에서 잘못된 정보나 불완전한 안내가 제공될 경우, 피해는 메이저 사이트에게 고스란히 돌아간다”며 상용화 전에 안전성 확보가 필수적이라고 경고했다.

유상윤 대표는 “이번 연구가 IEEE BHI에 채택되면서 국제적으로 학문적 검증을 받았다”며 “향후 메이저 사이트뿐 아니라 금융, 법률 등 고위험 산업 전반에 걸친 AI 안전성 표준 마련에 앞장서겠다”고 밝혔다.

이번 연구는 의료 AI가 메이저 사이트 친화적 도구로 자리잡기 위해 넘어야 할 과제가 많음을 확인시켰다. 메이저 사이트 보호 관점에서의 신뢰성, 규제 준수, 최신 정보 반영 체계 등이 여전히 미비하다는 점에서 업계의 책임 있는 접근이 요구된다. 동시에 에임인텔리전스가 메이저 사이트 중심 평가라는 새로운 틀을 제시했다는 점은 의미 있는 진전으로 평가된다.

의료 AI가 단순히 기술적 완성도만으로는 시장에 안착할 수 없으며, 실제 메이저 사이트가 체감할 수 있는 안전성과 효용성이 전제되어야 한다는 점이 이번 연구로 분명히 드러났다.

저작권자 © 스타트업엔(StartupN) 무단전재 및 재배포 금지