휴대전화로 건강정보를 검색 중인 여성 사용자, 공원에서 AI 또는 검색엔진을 이용하는 모습.

“AI는 아직…” 구글, 건강정보 평가서 챗GPT보다 높은 신뢰도

건강정보의 신뢰도는 아직 AI보다 검색엔진이 우세하다는 연구 결과가 나왔다. 미국 버지니아 의대는 구글, 챗GPT 등 4개 플랫폼을 비교한 결과, AI 챗봇은 출처 불명확·정보 오류 등이 확인돼 신뢰성과 투명성 면에서 검색엔진보다 낮은 평가를 받았다.

[국내 최초 보도] 버지니아 의대 연구진, 구글·빙·챗GPT·제미니 등 4개 플랫폼 건강정보 품질 비교 분석

AI 챗봇보다 구글이 더 신뢰할 만하다는 평가가 나왔다. 최근 연구에서 건강정보를 비교 분석한 결과, 기존 검색엔진이 AI 기반 서비스보다 더 높은 품질과 신뢰도를 보인 것으로 나타났다.

휴대전화로 건강정보를 검색 중인 여성 사용자, 공원에서 AI 또는 검색엔진을 이용하는 모습.

미국 동부 버지니아 의대 연구진은 구글, 빙(Bing), 챗GPT, 제미니(Gemini) 등 4개 플랫폼을 대상으로 피부질환 관련 건강정보의 품질을 비교 분석했다. 평가에는 정보의 신뢰도(DISCERN), 출처 및 최신성(JAMA 기준), 가독성(Flesch-Kincaid) 등 세 가지 기준이 적용됐다.

결과에 따르면, 정보의 신뢰도에서는 구글이 5점 만점에 3.33점으로 가장 높은 점수를 받았고, 챗GPT는 2.20점으로 가장 낮았으며, 제미니 또한 유사한 수준의 점수를 기록했다. 출처 및 최신성 기준에서도 구글이 3.70점으로 가장 높았고, 챗GPT는 2.50점에 머물렀다.

연구진은 “챗GPT와 제미니는 문장이 자연스럽고 간결하다는 장점이 있었지만, 출처가 불분명하거나 잘못 인용된 사례가 있었다”고 지적했다.

또한 모든 플랫폼의 응답이 미국 공중보건 권고 기준(중학교 2학년 수준)보다 어려워, 일반 독자가 이해하기에는 다소 어렵다는 평가도 나왔다.

이번 연구를 주도한 휴스턴 넬슨 박사는 “AI 플랫폼은 사용자 친화적 인터페이스를 갖췄지만, 의료정보 제공 측면에서 여전히 투명성과 근거 기반이 부족하다”고 강조했다. 그는 “AI 활용 확대에 앞서, 사용자 교육과 정보 검증 체계를 마련이 시급하다”고 덧붙였다.

한편, 전문가들은 온라인 건강 정보를 확인할 때 출처의 신뢰성(정부·대학병원·전문학회 등), 정보의 최신성, 과학적 근거(연구·가이드라인 인용 여부) 등을 기준으로 판단할 것을 권고한다.

또한, 특정 제품이나 시술을 과도하게 홍보하거나 개인 사례 중심으로 구성된 정보는 신뢰도 측면에서 주의가 필요하다고 덧붙였다. 건강정보는 어디까지나 참고용이며, 증상이나 의학적 판단이 필요한 경우에는 전문가 진료가 우선돼야 한다.

📌 관련콘텐츠

해당 논문은 2025년 6월 22일, 의학 전문 학술지 『Cureus』에 게재됐다.

참조 논문 : Nelson H. C., Beauchamp M. T., Pace A. A. (2025). The Reliability Gap: How Traditional Search Engines Outperform Artificial Intelligence (AI) Chatbots in Rosacea Public Health Information Quality. Cureus, 17(6): e86543. https://doi.org/10.7759/cureus.86543

이 콘텐츠는 Core Me의 의학 전문 AI ‘닥터코어(Dr. Core)’의 검수 시스템을 거쳐 작성됐습니다.

Avatar photo
김종일 편집장
기사 : 102