Новые модели ИИ от OpenAI демонстрируют более высокие показатели галлюцинаций в задачах на рассуждение

Недавно выпущенные модели ИИ o3 и o4-mini от OpenAI превосходят в нескольких областях, но демонстрируют повышенную склонность к галлюцинациям по сравнению с предыдущими моделями, генерируя больше вымышленной информации.
Галлюцинации остаются постоянной проблемой в ИИ, даже для систем высшего уровня. Обычно новые модели снижают уровень галлюцинаций, но o3 и o4-mini отклоняются от этой тенденции.
Внутренние тесты OpenAI показывают, что o3 и o4-mini, разработанные как модели для рассуждений, галлюцинируют чаще, чем предыдущие модели для рассуждений, такие как o1, o1-mini и o3-mini, а также модели, не предназначенные для рассуждений, такие как GPT-4o.
Причина этого увеличения остается неясной для OpenAI, вызывая обеспокоенность.
Технический отчет OpenAI по моделям o3 и o4-mini отмечает, что необходимы дополнительные исследования, чтобы точно определить, почему уровень галлюцинаций увеличивается с масштабированием моделей для рассуждений. Хотя эти модели превосходят в таких областях, как программирование и математика, их склонность делать больше утверждений приводит как к точным, так и к неточным результатам, согласно отчету.
На бенчмарке PersonQA от OpenAI модель o3 галлюцинировала в 33% ответов, что вдвое превышает показатели o1 (16%) и o3-mini (14.8%). O4-mini показала худший результат, галлюцинируя в 48% случаев.
Transluce, некоммерческая исследовательская группа по ИИ, обнаружила, что o3 выдумывает действия, такие как утверждение, что она запускала код на MacBook Pro 2021 года вне ChatGPT, несмотря на отсутствие таких возможностей.
«Мы подозреваем, что обучение с подкреплением, используемое в моделях серии o, может усугублять проблемы, обычно смягчаемые стандартными методами постобучения», — сказал исследователь Transluce и бывший сотрудник OpenAI Нил Чоудхури в письме TechCrunch.
Сооснователь Transluce Сара Шветтманн отметила, что уровень галлюцинаций o3 может снизить ее практическую полезность.
Киан Катанфоруш, адъюнкт-профессор Стэнфорда и генеральный директор Workera, сообщил TechCrunch, что его команда обнаружила превосходство o3 в рабочих процессах программирования, но склонность к генерации неработающих ссылок на веб-сайты.
Хотя галлюцинации могут стимулировать творческие идеи, они создают проблемы для таких отраслей, как юриспруденция, где точность критична, а ошибки в документах недопустимы.
Интеграция возможностей веб-поиска показывает перспективы для повышения точности. GPT-4o от OpenAI с веб-поиском достигает 90% точности на SimpleQA, что указывает на потенциал снижения галлюцинаций в моделях для рассуждений, когда пользователи разрешают доступ к поиску третьих сторон.
Если масштабирование моделей для рассуждений продолжит увеличивать галлюцинации, поиск решений станет все более важным.
«Повышение точности и надежности моделей — ключевая цель наших текущих исследований», — сказал представитель OpenAI Нико Феликс в письме TechCrunch.
Индустрия ИИ недавно сместила акцент на модели для рассуждений, которые повышают производительность без необходимости обширных вычислительных ресурсов. Однако этот сдвиг, похоже, увеличивает риски галлюцинаций, представляя значительную проблему.
Связанная статья
Отказ в выдаче грин-карты исследователю ИИ вызывает беспокойство по поводу удержания талантов в США
Кай Чен, канадский эксперт по ИИ в OpenAI, проживший в США 12 лет, получил отказ в выдаче грин-карты, сообщил Ноам Браун, известный исследователь компании. В публикации на X Браун рассказал, что Чен у
Вашингтон Пост сотрудничает с OpenAI для улучшения доступа к новостям через ChatGPT
Вашингтон Пост и OpenAI объявили о «стратегическом партнерстве» для «расширения доступа к надежным новостям через ChatGPT», согласно пресс-релизу Вашингтон Пост.OpenAI заключила союзы с более чем 20 д
OpenAI подтверждает свои некоммерческие корни в ходе масштабной корпоративной реструктуризации
OpenAI остается верной своей некоммерческой миссии, проходя через значительную корпоративную реструктуризацию, балансируя между ростом и приверженностью этичному развитию ИИ.Генеральный директор Сэм А
Комментарии (0)
Недавно выпущенные модели ИИ o3 и o4-mini от OpenAI превосходят в нескольких областях, но демонстрируют повышенную склонность к галлюцинациям по сравнению с предыдущими моделями, генерируя больше вымышленной информации.
Галлюцинации остаются постоянной проблемой в ИИ, даже для систем высшего уровня. Обычно новые модели снижают уровень галлюцинаций, но o3 и o4-mini отклоняются от этой тенденции.
Внутренние тесты OpenAI показывают, что o3 и o4-mini, разработанные как модели для рассуждений, галлюцинируют чаще, чем предыдущие модели для рассуждений, такие как o1, o1-mini и o3-mini, а также модели, не предназначенные для рассуждений, такие как GPT-4o.
Причина этого увеличения остается неясной для OpenAI, вызывая обеспокоенность.
Технический отчет OpenAI по моделям o3 и o4-mini отмечает, что необходимы дополнительные исследования, чтобы точно определить, почему уровень галлюцинаций увеличивается с масштабированием моделей для рассуждений. Хотя эти модели превосходят в таких областях, как программирование и математика, их склонность делать больше утверждений приводит как к точным, так и к неточным результатам, согласно отчету.
На бенчмарке PersonQA от OpenAI модель o3 галлюцинировала в 33% ответов, что вдвое превышает показатели o1 (16%) и o3-mini (14.8%). O4-mini показала худший результат, галлюцинируя в 48% случаев.
Transluce, некоммерческая исследовательская группа по ИИ, обнаружила, что o3 выдумывает действия, такие как утверждение, что она запускала код на MacBook Pro 2021 года вне ChatGPT, несмотря на отсутствие таких возможностей.
«Мы подозреваем, что обучение с подкреплением, используемое в моделях серии o, может усугублять проблемы, обычно смягчаемые стандартными методами постобучения», — сказал исследователь Transluce и бывший сотрудник OpenAI Нил Чоудхури в письме TechCrunch.
Сооснователь Transluce Сара Шветтманн отметила, что уровень галлюцинаций o3 может снизить ее практическую полезность.
Киан Катанфоруш, адъюнкт-профессор Стэнфорда и генеральный директор Workera, сообщил TechCrunch, что его команда обнаружила превосходство o3 в рабочих процессах программирования, но склонность к генерации неработающих ссылок на веб-сайты.
Хотя галлюцинации могут стимулировать творческие идеи, они создают проблемы для таких отраслей, как юриспруденция, где точность критична, а ошибки в документах недопустимы.
Интеграция возможностей веб-поиска показывает перспективы для повышения точности. GPT-4o от OpenAI с веб-поиском достигает 90% точности на SimpleQA, что указывает на потенциал снижения галлюцинаций в моделях для рассуждений, когда пользователи разрешают доступ к поиску третьих сторон.
Если масштабирование моделей для рассуждений продолжит увеличивать галлюцинации, поиск решений станет все более важным.
«Повышение точности и надежности моделей — ключевая цель наших текущих исследований», — сказал представитель OpenAI Нико Феликс в письме TechCrunch.
Индустрия ИИ недавно сместила акцент на модели для рассуждений, которые повышают производительность без необходимости обширных вычислительных ресурсов. Однако этот сдвиг, похоже, увеличивает риски галлюцинаций, представляя значительную проблему.











