вариант
Дом
Новости
Новые модели ИИ от OpenAI демонстрируют более высокие показатели галлюцинаций в задачах на рассуждение

Новые модели ИИ от OpenAI демонстрируют более высокие показатели галлюцинаций в задачах на рассуждение

21 июля 2025 г.
119

Новые модели ИИ от OpenAI демонстрируют более высокие показатели галлюцинаций в задачах на рассуждение

Недавно выпущенные модели ИИ o3 и o4-mini от OpenAI превосходят в нескольких областях, но демонстрируют повышенную склонность к галлюцинациям по сравнению с предыдущими моделями, генерируя больше вымышленной информации.

Галлюцинации остаются постоянной проблемой в ИИ, даже для систем высшего уровня. Обычно новые модели снижают уровень галлюцинаций, но o3 и o4-mini отклоняются от этой тенденции.

Внутренние тесты OpenAI показывают, что o3 и o4-mini, разработанные как модели для рассуждений, галлюцинируют чаще, чем предыдущие модели для рассуждений, такие как o1, o1-mini и o3-mini, а также модели, не предназначенные для рассуждений, такие как GPT-4o.

Причина этого увеличения остается неясной для OpenAI, вызывая обеспокоенность.

Технический отчет OpenAI по моделям o3 и o4-mini отмечает, что необходимы дополнительные исследования, чтобы точно определить, почему уровень галлюцинаций увеличивается с масштабированием моделей для рассуждений. Хотя эти модели превосходят в таких областях, как программирование и математика, их склонность делать больше утверждений приводит как к точным, так и к неточным результатам, согласно отчету.

На бенчмарке PersonQA от OpenAI модель o3 галлюцинировала в 33% ответов, что вдвое превышает показатели o1 (16%) и o3-mini (14.8%). O4-mini показала худший результат, галлюцинируя в 48% случаев.

Transluce, некоммерческая исследовательская группа по ИИ, обнаружила, что o3 выдумывает действия, такие как утверждение, что она запускала код на MacBook Pro 2021 года вне ChatGPT, несмотря на отсутствие таких возможностей.

«Мы подозреваем, что обучение с подкреплением, используемое в моделях серии o, может усугублять проблемы, обычно смягчаемые стандартными методами постобучения», — сказал исследователь Transluce и бывший сотрудник OpenAI Нил Чоудхури в письме TechCrunch.

Сооснователь Transluce Сара Шветтманн отметила, что уровень галлюцинаций o3 может снизить ее практическую полезность.

Киан Катанфоруш, адъюнкт-профессор Стэнфорда и генеральный директор Workera, сообщил TechCrunch, что его команда обнаружила превосходство o3 в рабочих процессах программирования, но склонность к генерации неработающих ссылок на веб-сайты.

Хотя галлюцинации могут стимулировать творческие идеи, они создают проблемы для таких отраслей, как юриспруденция, где точность критична, а ошибки в документах недопустимы.

Интеграция возможностей веб-поиска показывает перспективы для повышения точности. GPT-4o от OpenAI с веб-поиском достигает 90% точности на SimpleQA, что указывает на потенциал снижения галлюцинаций в моделях для рассуждений, когда пользователи разрешают доступ к поиску третьих сторон.

Если масштабирование моделей для рассуждений продолжит увеличивать галлюцинации, поиск решений станет все более важным.

«Повышение точности и надежности моделей — ключевая цель наших текущих исследований», — сказал представитель OpenAI Нико Феликс в письме TechCrunch.

Индустрия ИИ недавно сместила акцент на модели для рассуждений, которые повышают производительность без необходимости обширных вычислительных ресурсов. Однако этот сдвиг, похоже, увеличивает риски галлюцинаций, представляя значительную проблему.

Связанная статья
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI Грег Брокман рассказывает, как Илон Маск покинул OpenAI В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети. Пентагон заключил соглашения с Nvidia, Microsoft и AWS о внедрении технологий искусственного интеллекта в секретные сети. После предыдущих соглашений с Google, SpaceX и OpenAI, Министерство обороны США в пятницу объявило о подписании договоров с Nvidia, Microsoft, Amazon Web Services и Reflection AI о использовании их технологий и моделей искусственного интеллекта в сек
Рекомендации по связанным специальным темам
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
код Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом
Лучшие инструменты ИИ для автоматизированного тестирования модулей: создание случаев тестирования Jest, PyTest и JUnit одним кликом

Откройте для себя самые новые и высоко оцененные инструменты ИИ 2026 года для автоматизированного тестирования модулей. Наша тщательно подобранная коллекция включает мощные решения, способные радикально изменить процесс разработки, позволяющие мгновенно генерировать тестовые случаи для Jest, PyTest и JUnit. Сравните бесплатные и платные варианты с результатами реальных тестов, а также еженедельно обновляемыми рейтингами на сайте XIX.AI. Раскройте потенциал ИИ и повысьте эффективность своей работы в области разработки сегодня же.

10 инструментов
xix.ai
Комментарии (4)
0/500
GeorgeWilliams
GeorgeWilliams 14 августа 2025 г., 16:00:59 GMT+03:00

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 12 августа 2025 г., 14:00:59 GMT+03:00

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 4 августа 2025 г., 9:48:52 GMT+03:00

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 28 июля 2025 г., 4:20:21 GMT+03:00

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

OR