국제전체

"의사 임상 판단 시험에선 딥시크가 챗GPT보다 열세"

  • 등록: 2025.02.05 08:32

  • 수정: 2025.02.05 08:36

/AFP=연합뉴스
/AFP=연합뉴스

중국의 고성능 AI(인공지능) '딥시크'가 의사 면허증 시험에서는 미국의 대표 AI 챗GPT보다 뒤떨어지는 성적을 냈다는 연구 결과가 나왔다.

지난 달 말 공개된 딥시크는 애초 개발·운영 비용이 훨씬 낮은 상황에도 수학 등 고급 지적 작업에서 챗GPT와 실력이 비슷하거나 소폭 앞서는 것으로 알려졌는데, 반대의 결과가 나온 것이다.

의사 면허증 시험은 특정 환자 사례를 주고 진단과 치료 조처에 관한 판단을 묻는다.

복잡한 의학 지식을 논리적으로 적용해 결론을 내야 해 고급 AI 역량을 측정하는 가늠자로 종종 쓰인다.

이탈리아 반비텔리대 연구진은 통제된 환경에서 '딥시크 R1'과 '챗GPT o1' 모델에게 미국 의사 면허증 시험의 객관식 문제 500개를 풀게 한 결과를 최근 논문으로 공개했다.

이 테스트에서 딥시크 R1은 500점 만점에 435점(정답률 87.0%)을 받았고 챗GPT o1은 464점(92.8%)을 받았다.

챗GPT가 딥시크보다 정답률이 약 5%포인트 앞섰다.

두 AI는 모두 고급 추론에 특화한 제품이다.

두 AI가 모두 오답을 낸 문항은 14개에 불과했으나 챗GPT는 맞추고 딥시크는 틀린 문제는 51개에 달했다.

챗GPT가 틀리고 딥시크는 정답을 쓴 문항은 22개였다.

연구진은 "임상 보조 도구로는 챗GPT가 진단 오류를 최소화할 수 있다는 점에서 더 적합한 AI로 판단된다. 특히 신생아 치료 같은 급박한 상황에서는 챗GPT가 훨씬 더 나은 옵션이 될 것"이라고 설명했다.

Copyrights ⓒ TV조선. 무단전재 및 재배포 금지