챗봇으로부터 신뢰할 수 있는 건강 조언을 얻는 데 어려움이 있다는 연구 결과 발표

의료 시스템이 대기 시간 연장과 비용 증가로 어려움을 겪고 있는 가운데, 점점 더 많은 환자들이 사전 의료 상담을 위해 ChatGPT와 같은 인공지능 챗봇을 실험하고 있습니다. 최근 데이터에 따르면 미국 성인의 약 17%가 매달 이러한 도구를 통해 건강 정보를 얻고 있습니다. 그러나 새로운 연구에 따르면 이러한 새로운 관행은 특히 사용자가 적절한 맥락을 제공하지 않거나 AI의 응답을 잘못 해석할 경우 상당한 위험을 수반할 수 있습니다.
옥스포드가 주도한 이 연구는 사람들이 의료 자가 진단에 대화형 AI를 얼마나 효과적으로 사용하는지에 대한 중요한 한계를 드러냈습니다. 연구팀은 1,300명의 영국 참가자를 대상으로 의사가 개발한 의료 시나리오를 제시했습니다. 참가자들은 AI 비서 또는 인터넷 검색과 같은 기존 방법을 사용해 진단을 시도했으며, 여러 AI 플랫폼에서 우려스러운 결과가 나왔습니다.
"우리는 양방향에서 근본적인 커뮤니케이션 단절을 관찰했습니다."라고 이 연구의 공동 저자인 옥스퍼드 인터넷 연구소의 아담 마흐디는 설명합니다. "AI 사용자들은 기존 접근 방식을 사용하는 사람들보다 더 나은 의사 결정 능력을 보여주지 못했으며, 어떤 경우에는 더 나쁜 성과를 거두기도 했습니다."
이 연구는 세 가지 주요 AI 모델을 테스트했습니다: OpenAI의 GPT-4o(ChatGPT 지원), Cohere의 Command R+, Meta의 Llama 3. 연구 결과 두 가지 문제가 되는 패턴이 발견되었습니다:
- AI 도구를 사용하는 참가자는 관련 건강 상태를 식별하는 데 덜 성공했습니다.
- AI 상호작용으로 인해 상태의 심각성을 과소평가하는 위험한 결과가 초래됨
마흐디는 입력 품질과 결과 해석에 심각한 문제가 있다고 지적했습니다: "사용자는 질문을 작성할 때 중요한 의학적 세부 사항을 생략하는 경우가 많았고, AI 응답은 정확한 조언과 문제가 있는 제안을 혼합하는 경우가 많았습니다." 이러한 조합은 사용자가 부적절한 의료 결정을 내릴 수 있는 특히 위험한 시나리오를 만들었습니다.
업계의 요구와 의료 현실
이러한 결과는 주요 기술 기업들이 건강에 초점을 맞춘 AI 애플리케이션을 공격적으로 개발하면서 드러나고 있습니다:
- Apple은 운동 및 수면 지도를 위한 웰니스 어드바이저를 개발 중인 것으로 알려졌습니다.
- 아마존은 사회적 건강 지표를 위해 의료 기록을 분석하고 있습니다.
- Microsoft는 환자 커뮤니케이션의 우선 순위를 정하는 AI 시스템을 개발하고 있습니다.
그러나 의료계는 이러한 기술을 임상 환경에 적용하는 것에 대해 여전히 신중한 입장입니다. 미국의사협회는 의사들이 의사 결정 지원을 위해 소비자 챗봇을 사용하는 것에 대해 명시적으로 경고하고 있으며, 이는 AI 개발자들도 같은 경고를 하고 있습니다. Open AI의 사용 정책은 특히 진단 목적으로 모델을 사용하는 것을 금지하고 있습니다.
"우리는 사람들이 의료 결정을 내릴 때 챗봇의 결과물보다는 검증된 의료 자료를 참조할 것을 강력히 권고합니다."라고 마흐디는 강조합니다. "이러한 시스템은 널리 배포되기 전에 제약 임상시험에 필적하는 엄격한 실제 테스트를 거쳐야 합니다."
결론
AI 챗봇은 의료 서비스의 접근성을 높일 수 있는 흥미로운 가능성을 제시하지만, 이 연구는 현재 구현에 상당한 위험이 있음을 강조합니다. 기술이 발전함에 따라 개발자는 신뢰성의 중요한 격차를 해결해야 하며, 사용자는 적절한 회의론을 가지고 AI 의료 조언에 접근해야 합니다.
관련 기사
AI 데이터 센터, 2030년까지 2000억 달러 비용, 전력망 부담
AI 훈련 및 운영 데이터 센터는 곧 수백만 개의 칩을 수용하고, 수천억 달러의 비용이 들며, 트렌드가 지속된다면 주요 도시의 전력망에 해당하는 전력을 요구할 수 있습니다.조지타운, Epoch AI, 랜드 연구원들의 새로운 연구는 2019년부터 2025년까지 전 세계 500개 이상의 AI 데이터 센터 프로젝트를 분석했습니다. 데이터는 컴퓨팅 성능이 매년 두
연구, 간결한 AI 응답이 환각을 증가시킬 수 있다고 밝혀
AI 챗봇에게 간결한 답변을 제공하도록 지시하면 환각이 더 자주 발생할 수 있다는 새로운 연구 결과가 나왔다.파리 소재 AI 평가 회사 Giskard의 최근 연구는 프롬프트 표현 방식이 AI 정확도에 어떤 영향을 미치는지 조사했다. Giskard 연구원들은 블로그 포스트에서 모호한 주제에 대해 간결한 응답을 요구하는 경우, 특히 모델의 사실적 신뢰도가 떨어
AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음
런던 경제 학교와 Systemiq의 최근 연구에 따르면, 인공지능은 현대적 편의를 희생하지 않으면서 글로벌 탄소 배출을 상당히 줄일 수 있으며, 기후 변화 대응에서 AI를 중요한 동맹으로 자리매김하고 있습니다.이 연구는 단 세 개의 산업에서 지능형 AI 응용 프로그램을 통해 2035년까지 매년 32억에서 54억 톤의 온실가스 배출을 줄일 수 있다고 강조합니
의견 (0)
0/200
의료 시스템이 대기 시간 연장과 비용 증가로 어려움을 겪고 있는 가운데, 점점 더 많은 환자들이 사전 의료 상담을 위해 ChatGPT와 같은 인공지능 챗봇을 실험하고 있습니다. 최근 데이터에 따르면 미국 성인의 약 17%가 매달 이러한 도구를 통해 건강 정보를 얻고 있습니다. 그러나 새로운 연구에 따르면 이러한 새로운 관행은 특히 사용자가 적절한 맥락을 제공하지 않거나 AI의 응답을 잘못 해석할 경우 상당한 위험을 수반할 수 있습니다.
옥스포드가 주도한 이 연구는 사람들이 의료 자가 진단에 대화형 AI를 얼마나 효과적으로 사용하는지에 대한 중요한 한계를 드러냈습니다. 연구팀은 1,300명의 영국 참가자를 대상으로 의사가 개발한 의료 시나리오를 제시했습니다. 참가자들은 AI 비서 또는 인터넷 검색과 같은 기존 방법을 사용해 진단을 시도했으며, 여러 AI 플랫폼에서 우려스러운 결과가 나왔습니다.
"우리는 양방향에서 근본적인 커뮤니케이션 단절을 관찰했습니다."라고 이 연구의 공동 저자인 옥스퍼드 인터넷 연구소의 아담 마흐디는 설명합니다. "AI 사용자들은 기존 접근 방식을 사용하는 사람들보다 더 나은 의사 결정 능력을 보여주지 못했으며, 어떤 경우에는 더 나쁜 성과를 거두기도 했습니다."
이 연구는 세 가지 주요 AI 모델을 테스트했습니다: OpenAI의 GPT-4o(ChatGPT 지원), Cohere의 Command R+, Meta의 Llama 3. 연구 결과 두 가지 문제가 되는 패턴이 발견되었습니다:
- AI 도구를 사용하는 참가자는 관련 건강 상태를 식별하는 데 덜 성공했습니다.
- AI 상호작용으로 인해 상태의 심각성을 과소평가하는 위험한 결과가 초래됨
마흐디는 입력 품질과 결과 해석에 심각한 문제가 있다고 지적했습니다: "사용자는 질문을 작성할 때 중요한 의학적 세부 사항을 생략하는 경우가 많았고, AI 응답은 정확한 조언과 문제가 있는 제안을 혼합하는 경우가 많았습니다." 이러한 조합은 사용자가 부적절한 의료 결정을 내릴 수 있는 특히 위험한 시나리오를 만들었습니다.
업계의 요구와 의료 현실
이러한 결과는 주요 기술 기업들이 건강에 초점을 맞춘 AI 애플리케이션을 공격적으로 개발하면서 드러나고 있습니다:
- Apple은 운동 및 수면 지도를 위한 웰니스 어드바이저를 개발 중인 것으로 알려졌습니다.
- 아마존은 사회적 건강 지표를 위해 의료 기록을 분석하고 있습니다.
- Microsoft는 환자 커뮤니케이션의 우선 순위를 정하는 AI 시스템을 개발하고 있습니다.
그러나 의료계는 이러한 기술을 임상 환경에 적용하는 것에 대해 여전히 신중한 입장입니다. 미국의사협회는 의사들이 의사 결정 지원을 위해 소비자 챗봇을 사용하는 것에 대해 명시적으로 경고하고 있으며, 이는 AI 개발자들도 같은 경고를 하고 있습니다. Open AI의 사용 정책은 특히 진단 목적으로 모델을 사용하는 것을 금지하고 있습니다.
"우리는 사람들이 의료 결정을 내릴 때 챗봇의 결과물보다는 검증된 의료 자료를 참조할 것을 강력히 권고합니다."라고 마흐디는 강조합니다. "이러한 시스템은 널리 배포되기 전에 제약 임상시험에 필적하는 엄격한 실제 테스트를 거쳐야 합니다."
결론
AI 챗봇은 의료 서비스의 접근성을 높일 수 있는 흥미로운 가능성을 제시하지만, 이 연구는 현재 구현에 상당한 위험이 있음을 강조합니다. 기술이 발전함에 따라 개발자는 신뢰성의 중요한 격차를 해결해야 하며, 사용자는 적절한 회의론을 가지고 AI 의료 조언에 접근해야 합니다.











