옵션
소식 OpenAI의 GPT-4.5가 드러낸 튜링 테스트 문제

OpenAI의 GPT-4.5가 드러낸 튜링 테스트 문제

출시일 출시일 2025년 5월 22일
작가 작가 EricJohnson
보기 보기 0

튜링 테스트는 전설적인 앨런 튜링의 아이디어로, 오랫동안 인공지능 분야의 기준이 되어왔습니다. 그러나 한 가지 오해를 바로잡아야 합니다: 튜링 테스트를 통과했다고 해서 기계가 인간처럼 "생각"한다는 의미는 아닙니다. 그것은 인간을 설득하여 기계가 인간이라고 믿게 만드는 것에 더 가깝습니다.

최근 캘리포니아 대학교 샌디에이고 캠퍼스(UC San Diego)의 연구는 OpenAI의 최신 모델, GPT-4.5에 주목하고 있습니다. 이 AI는 이제 인간이 다른 사람과 채팅하고 있다고 믿게 할 수 있을 정도로 효과적으로 인간을 속일 수 있습니다. 이것은 AI 세계에서 매우 큰 사건입니다. 마치 비밀을 알고 있는데도 불구하고 여전히 놀라운 마술을 보는 것 같습니다.

캘리포니아 대학교 샌디에이고 캠퍼스

AGI의 증거인가?

하지만 중요한 점은 UC San Diego의 연구자들조차 AI 모델이 튜링 테스트를 통과했다고 해서 "인공지능 일반" (AGI)에 도달했다고 선언할 준비가 되어 있지 않다는 것입니다. AGI는 AI의 성배로, 인간처럼 생각하고 정보를 처리할 수 있는 기계입니다.

산타페 연구소의 AI 학자 멜라니 미첼(Melanie Mitchell)은 Science 저널에서 튜링 테스트가 실제 지능보다는 인간의 가정을 테스트하는 것이라고 주장합니다. 물론 AI가 유창하고 설득력 있게 들릴 수 있지만, 그것은 일반적인 지능을 의미하는 것은 아닙니다. 체스를 잘하는 것과 같습니다. 인상적이지만 전체 그림은 아닙니다.

최근 이에 대한 화제는 캘리포니아 대학교 샌디에이고 캠퍼스의 캐머런 존스(Cameron Jones)와 벤자민 버겐(Benjamin Bergen)이 작성한 "대규모 언어 모델이 튜링 테스트를 통과하다"라는 제목의 논문에서 비롯되었습니다. 이 논문은 arXiv 사전 출판 서버에 게시되었습니다. 그들은 UC San Diego의 학부생들의 도움을 받아 수년 동안 이 실험을 진행해왔으며, 컴퓨터가 튜링 테스트를 통과했다는 800개 이상의 주장과 반론이 있었던 긴 연구의 일부입니다.

튜링 테스트는 어떻게 작동하는가?

그렇다면 이 테스트는 어떻게 작동할까요? 원래 튜링은 이를 인간 "심판"과 두 명의 "증인" - 한 명은 인간, 다른 한 명은 컴퓨터 - 간의 텍스트 메시지 게임으로 상상했습니다. 증인의 과제는 심판을 설득하여 자신들이 인간임을 증명하는 것입니다. 심판은 한 명이 인간임을 알고 있지만, 누구인지 알지 못하며, 추측해야 합니다. 이는 컴퓨터의 능력만큼이나 인식과 믿음에 관한 3자 구조입니다.

존스와 버겐은 이 고전적인 설정에 자신들만의 변형을 가했으며, 심판 또는 증인으로 온라인에서 직접 시도해 볼 수 있습니다. 그들의 버전에서는 UC San Diego 학생들이 텍스트 채팅 앱을 사용했습니다. 일부는 심판을, 다른 일부는 인간 증인을 연기했고, GPT-4.5는 컴퓨터 증인의 역할을 맡았습니다. 각 심판은 동시에 인간과 컴퓨터와 채팅하며, 튜링의 원래 형식을 따랐습니다.

컴퓨터 증인을 연기하기 위해 그들은 심판의 도전에 기반한 프롬프트를 대규모 언어 모델에 제공했습니다. GPT-4.5는 최소한의 정보를 포함한 프롬프트와 슬랭을 사용하는 젊고 내성적인 인터넷 전문가처럼 행동하라는 상세한 지침을 포함한 PERSONA라는 두 가지 다른 프롬프트로 테스트되었습니다.

캘리포니아 대학교 샌디에이고 캠퍼스

결과

그들은 또한 다른 세 가지 AI 프로그램을 테스트했습니다: OpenAI의 이전 모델인 GPT-4o, Meta Platforms의 Llama 3.1 405b, 그리고 1960년대의 고전적인 챗봇인 ELIZA입니다. 그들은 ELIZA를 포함시켜 대규모 언어 모델이 단순히 우연히 인간을 속이는지, 아니면 실제로 더 나은지 확인하고자 했습니다.

존스와 버겐에 따르면, GPT-4.5는 인간 심판을 73%의 시간 동안 인간이라고 속였습니다. 그들은 이를 "승률"이라고 부릅니다. 이는 유사한 상세한 프롬프트를 사용한 다른 모델들보다 훨씬 우수한 결과로, 21%에서 56% 사이의 점수를 기록했습니다. 그리고 지난해의 GPT-4 테스트에서 54%의 승률을 기록한 것보다 큰 도약입니다. 이는 무작위 확률보다 겨우 높았습니다.

존스와 버겐은 심판들이 AI에 속은 것이 아니라 실제로 인간 참가자보다 AI가 인간이라고 믿을 가능성이 더 높았다고 발견했습니다.

테스트가 실제로 지능을 측정하는가?

그렇다면 인간이 채팅에서 컴퓨터를 사람으로 구분할 수 없는 것이 무엇을 의미할까요? 수십 년 동안 논의된 큰 질문은 튜링 테스트가 정말로 지능을 측정하는지 여부입니다. 존스와 버겐은 기계가 다양한 상황에 적응하는 능력이 너무 좋아져서 인간으로 위장할 수 있을지도 모른다고 제안합니다. 인간이 만든 PERSONA 프롬프트는 GPT-4.5가 적응하여 자신의 이점으로 사용한 것입니다.

그러나 문제가 있습니다: 어쩌면 인간은 지능을 인식하는 데 서툴 수도 있습니다. 저자들은 ELIZA, 이 고전적인 챗봇이 23%의 시간 동안 심판을 속였던 이유는 더 똑똑해서가 아니라, AI가 어떠해야 한다는 그들의 기대에 부합하지 않았기 때문이라고 지적합니다. 일부 심판은 AI가 "비꼬거나" "무례하게" 행동하는 것을 예상하지 못해 인간이라고 생각했습니다.

이는 심판들이 인간과 AI가 어떻게 행동해야 하는지에 대한 자신의 가정에 영향을 받는다는 것을 암시합니다. 흥미롭게도, 심판들은 지식에 그다지 집중하지 않았는데, 이것은 튜링이 중요한 요소로 생각한 부분입니다. 대신, 그들은 증인이 지식을 부족해 보일 때 인간이라고 생각할 가능성이 더 컸습니다.

사교성, 지능이 아닌

이 모든 것이 인간이 지능보다는 사교성을 감지하고 있다는 아이디어를 가리킵니다. 존스와 버겐은 튜링 테스트가 실제로는 지능 테스트가 아니라 인간다움 테스트라고 결론짓습니다.

튜링은 지능이 인간다운 것처럼 보이기 위한 가장 큰 장애물이라고 생각했을지 모르지만, 기계가 우리에게 더 가까워짐에 따라 다른 차이점들이 더 명확해집니다. 이제 지능만으로는 인간처럼 보이기에 충분하지 않습니다.

논문에서 직접적으로 언급되지 않은 것은 인간이 컴퓨터를 통해 사람이나 기계와 대화하는 데 익숙해져서 튜링 테스트가 예전처럼 새로운 인간-컴퓨터 상호작용 테스트가 아니라는 점입니다. 이제는 온라인 인간 습관을 테스트하는 것입니다.

저자들은 지능이 매우 복잡하고 다면적이기 때문에 단일 테스트만으로 결정적일 수 없다고 제안하며, 테스트를 확장할 필요가 있다고 말합니다. 그들은 AI 전문가를 심판으로 사용하거나 심판들이 더 면밀히 검토할 수 있도록 금전적 인센티브를 추가하는 등의 다른 설계를 제안합니다. 이러한 변화는 태도와 기대가 결과에 얼마나 영향을 미치는지를 보여줄 수 있습니다.

그들은 튜링 테스트가 그림의 일부일 수 있지만, 다른 종류의 증거와 함께 고려되어야 한다고 결론짓습니다. 이는 AI 연구에서 인간을 "루프"에 포함시키는 경향이 증가하고 있으며, 기계가 하는 일을 평가하는 것과 일치합니다.

인간의 판단이 충분할까?

그러나 장기적으로 인간의 판단이 충분할지에 대한 질문이 여전히 남아 있습니다. 영화 블레이드 러너에서 인간은 인간과 복제 로봇을 구분하기 위해 "보이트-캠프"라는 기계를 사용합니다. 우리가 AGI를 추구하고 그것이 무엇인지 정의하려고 노력하는 동안, 결국 기계의 지능을 평가하기 위해 기계에 의존하게 될 수도 있습니다.

또는 최소한, 우리는 기계에 인간이 다른 인간을 속이려는 프롬프트에 대해 어떻게 "생각"하는지 물어보아야 할 수도 있습니다. AI 연구는 정말로 흥미로운 세계이며, 점점 더 흥미로워지고 있습니다.

관련 기사
애플, 2027년 곡면 유리 아이폰 출시 애플, 2027년 곡면 유리 아이폰 출시 오늘 아침, 마크 구르만이 *블룸버그*의 *파워 온* 뉴스레터에서 2027년 애플의 "제품 폭풍"을 예측하며 흥분을 자아냈습니다. 특히 그는 아이폰 20주년 기념해 출시될 "거의 유리로 된, 곡선형 아이폰"을 암시했는데, 디스플레이 컷아웃이 없을 것이라고 했습니다. 이 흥미로운 세부 사항이 내 관심을 끌었는데, 특히 내
AI 기반 수요 편지는 냉동 펀드의 잠금을 해제하는 데 도움이됩니다 AI 기반 수요 편지는 냉동 펀드의 잠금을 해제하는 데 도움이됩니다 Amazon, PayPal 또는 Stripe와 같은 회사의 냉동 펀드를 다루는 것은 진정한 두통이 될 수 있습니다. 이 문제를 해결하는 효과적인 방법 중 하나는 매력적인 수요 편지를 보내는 것입니다. AI, 특히 chatgpt의 도움으로 Brea없이 돈을 돌려받을 수있는 강력한 편지를 만들 수 있습니다.
Llama 3.1: 메타의 오픈 소스 AI로의 한 걸음 Llama 3.1: 메타의 오픈 소스 AI로의 한 걸음 메타, AI 기술의 새로운 도약인 Llama 3.1 공개페이스북의 주역인 메타가 최신 오픈소스 AI 모델인 Llama 3.1 405B의 레드카펫을 깔았습니다. 이번 업데이트는 단순한 업데이트가 아닙니다; 인공지능 세계에서 큰 발전을 의미합니다. Llama 3.1은 메타의 AI 어시스턴트를 강화하여 많은 사용자 대면 애플리
의견 (0)
0/200
위로 돌아갑니다
OR