вариант
Дом Новости Недостаток теста Тьюринга, раскрытый OpenAI's GPT-4.5

Недостаток теста Тьюринга, раскрытый OpenAI's GPT-4.5

Дата выпуска Дата выпуска 22 мая 2025 г.
Автор Автор EricJohnson
виды виды 0

Тест Тьюринга, созданный легендарным Аланом Тьюрингом, долгое время служил эталоном в мире искусственного интеллекта. Но давайте сразу развеем распространенное заблуждение: прохождение теста Тьюринга не означает, что машина "думает" как человек. Это скорее о том, чтобы убедить людей, что она так и делает.

Недавние исследования из Калифорнийского университета в Сан-Диего привлекли внимание к последней модели OpenAI, GPT-4.5. Этот ИИ теперь может обманывать людей, заставляя их думать, что они общаются с другим человеком, даже более эффективно, чем люди могут убедить друг друга в своей человечности. Это большое дело в мире ИИ — как смотреть на фокус, зная секрет, но он все равно поражает.

Калифорнийский университет в Сан-Диего

Доказательство ИОИ?

Но вот в чем загвоздка: даже исследователи из UC San Diego не готовы утверждать, что мы достигли "искусственного общего интеллекта" (ИОИ) только потому, что модель ИИ прошла тест Тьюринга. ИОИ был бы святым Граалем ИИ — машины, которые могут думать и обрабатывать информацию так же, как люди.

Мелани Митчелл, ученый в области ИИ из Института Санта-Фе, утверждает в журнале Science, что тест Тьюринга больше проверяет предположения людей, чем реальный интеллект. Конечно, ИИ может звучать бегло и убедительно, но это не то же самое, что быть общим интеллектом. Это как быть хорошим в шахматах — впечатляет, но это не вся картина.

Последние новости об этом поступили из статьи Кэмерона Джонса и Бенджамина Бергена из UC San Diego под названием "Большие языковые модели проходят тест Тьюринга", опубликованной на сервере предварительных публикаций arXiv. Они проводили этот эксперимент годами с помощью студентов бакалавриата UC San Diego, и это часть долгой линии исследований — более 800 утверждений и контраргументов были выдвинуты по поводу прохождения компьютерами теста Тьюринга.

Как работает тест Тьюринга

Итак, как работает этот тест? Изначально Тьюринг представлял его как игру в текстовые сообщения между человеческим "судьей" и двумя "свидетелями" — одним человеком, другим компьютером. Задача свидетелей — убедить судью, что они люди. Судья знает, что один из них человек, но не знает, кто именно, и должен сделать предположение. Это трехсторонняя установка, которая касается восприятия и веры не меньше, чем способностей компьютера.

Джонс и Берген внесли свои изменения в эту классическую установку, и вы даже можете попробовать это онлайн, играя роль либо судьи, либо свидетеля. В их версии студенты UC San Diego использовали приложение для текстового чата. Некоторые играли роль судьи, другие — человеческого свидетеля, в то время как GPT-4.5 взял на себя роль компьютерного свидетеля. Каждый судья одновременно общался и с человеком, и с компьютером, сохраняя верность оригинальному формату Тьюринга.

Чтобы сыграть роль компьютерного свидетеля, они использовали различные большие языковые модели, подавая им запросы на основе задач судьи. GPT-4.5 был протестирован с двумя разными запросами: один с минимальной информацией, а другой, названный PERSONA, включал подробные инструкции вести себя как молодой, интровертный, осведомленный в интернете человек, использующий сленг.

Калифорнийский университет в Сан-Диего

Результаты

Они также протестировали три другие программы ИИ: предыдущую модель OpenAI, GPT-4o; Llama 3.1 405b от Meta Platforms; и древнего чат-бота 1960-х годов, ELIZA. Они включили ELIZA, чтобы увидеть, обманывают ли большие языковые модели людей случайно или они действительно лучше.

По словам Джонса и Бергена, GPT-4.5 обманул человеческих судей, заставив их думать, что он человек, в 73% случаев — так называемый "показатель побед". Это намного лучше, чем у других моделей, которые набрали от 21% до 56%, даже с похожими подробными запросами. И это огромный скачок по сравнению с прошлогодним тестом GPT-4, который имел показатель победы всего 54%, едва превышающий случайный шанс.

Джонс и Берген обнаружили, что судьи не только были обмануты ИИ, но и были более склонны поверить, что это человек, чем реальным человеческим участникам.

Является ли тест на самом деле мерой интеллекта?

Итак, что это значит, что люди не могут отличить компьютер от человека в чате? Большой вопрос, который обсуждается десятилетиями, — действительно ли тест Тьюринга измеряет интеллект. Джонс и Берген предполагают, что возможно, машины просто стали так хороши в адаптации к различным сценариям, что могут убедительно сойти за человека. Запрос PERSONA, созданный людьми, был адаптирован GPT-4.5 и использован им в свою пользу.

Но есть подвох: возможно, люди просто плохо распознают интеллект. Авторы отмечают, что ELIZA, древний чат-бот, обманул судей в 23% случаев, не потому, что он был умнее, а потому, что не соответствовал их ожиданиям от того, каким должен быть ИИ. Некоторые судьи думали, что это человек, потому что он был "саркастичным" или "грубым", чего они не ожидали от ИИ.

Это предполагает, что судьи руководствуются своими предположениями о том, как должны вести себя люди и ИИ, а не просто выбирают самого умного агента. Интересно, что судьи не особо фокусировались на знаниях, которые Тьюринг считал ключевыми. Вместо этого они были более склонны считать свидетеля человеком, если он казался неосведомленным.

Социабельность, а не интеллект

Все это указывает на то, что люди обращали внимание на социабельность, а не на интеллект. Джонс и Берген приходят к выводу, что тест Тьюринга на самом деле не является тестом на интеллект — это тест на человечность.

Тьюринг мог думать, что интеллект — это самое большое препятствие для того, чтобы казаться похожим на человека, но по мере того, как машины становятся ближе к нам, другие различия становятся более очевидными. Один только интеллект больше не достаточен, чтобы казаться убедительно человеком.

Что не говорится напрямую в статье, так это то, что люди так привыкли печатать на компьютерах, будь то с человеком или машиной, что тест Тьюринга больше не является новым тестом взаимодействия человека с компьютером. Это скорее тест на онлайн-привычки людей.

Авторы предлагают, что тест может потребовать расширения, потому что интеллект настолько сложен и многогранен, что ни один тест не может быть решающим. Они предлагают различные дизайны, такие как использование экспертов по ИИ в качестве судей или добавление финансовых стимулов, чтобы заставить судей внимательнее изучать. Эти изменения могут показать, насколько отношение и ожидания влияют на результаты.

Они приходят к выводу, что, хотя тест Тьюринга может быть частью картины, его следует рассматривать вместе с другими видами доказательств. Это соответствует растущей тенденции в исследованиях ИИ включать людей "в цикл", оценивая, что делают машины.

Достаточно ли человеческого суждения?

Но все же остается вопрос, будет ли человеческое суждение достаточно в долгосрочной перспективе. В фильме Бегущий по лезвию люди используют машину, "Войт-Кампф", чтобы отличить людей от репликантов. По мере того как мы стремимся к ИОИ и боремся с определением того, что это такое, мы можем в конечном итоге полагаться на машины для оценки интеллекта машин.

Или, по крайней мере, нам может понадобиться спросить машины, что они "думают" о попытках людей обманывать других людей с помощью запросов. Это безумный мир в исследованиях ИИ, и он становится только интереснее.

Связанная статья
Apple выпустит iPhone с изогнутым стеклом в 2027 году Apple выпустит iPhone с изогнутым стеклом в 2027 году Сегодня утром Марк Гурман из Bloomberg вызвал волнение своим бюллетенем Power On, предсказав "продуктовый бум" Apple в 2027 году. В частности, он намекнул на "преимущественно стекл
Письма о спросе на AI помогают разблокировать замороженные средства Письма о спросе на AI помогают разблокировать замороженные средства Работа с замороженными средствами от таких компаний, как Amazon, PayPal или Stripe, может быть настоящей головной болью. Один эффективный способ решения этой проблемы - отправить убедительное письмо. С помощью ИИ, в частности, Chatgpt, вы можете создать мощное письмо, которое может просто вернуть ваши деньги без Brea
Llama 3.1: Шаг Meta к открытому ИИ Llama 3.1: Шаг Meta к открытому ИИ Meta представляет Llama 3.1: Новый прорыв в технологии ИИMeta, компания, стоящая за Facebook, только что представила Llama 3.1 405B, свою последнюю открытую модель ИИ. Это не прост
Вернуться к вершине
OR