OpenAI представляет версии GPT-5.4 Pro и Thinking

В четверг компания OpenAI представила GPT-5.4 — новую базовую модель, которую описывают как «нашу самую мощную и эффективную передовую модель для профессиональной работы». Помимо стандартной версии, GPT-5.4 предлагается в варианте, ориентированном на логическое мышление (GPT-5.4 Thinking), а также в версии с оптимизированной производительностью (GPT-5.4 Pro).
API-версия модели будет поддерживать контекстные окна объемом до 1 миллиона токенов, что станет самой большой емкостью контекста, которую OpenAI когда-либо предлагала.
OpenAI также подчеркнула повышенную эффективность токенов, отметив, что GPT-5.4 может решать идентичные задачи, используя значительно меньше токенов, чем ее предшественница.
Новая модель демонстрирует существенно улучшенные результаты тестирования, достигнув рекордных показателей в тестах OSWorld-Verified и WebArena Verified, предназначенных для оценки компьютерных навыков. Она также установила новый рекорд, набрав 83% в тесте GDPval от OpenAI для задач, связанных с интеллектуальным трудом.
Согласно заявлению генерального директора Mercor Брендана Фуди, GPT-5.4 лидирует в тесте Mercor APEX-Agents, который оценивает профессиональные навыки в области права и финансов.
«[GPT-5.4] отлично справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ, — заявил Фуди, — демонстрируя производительность высшего уровня при более быстрой работе и меньших затратах по сравнению с конкурирующими передовыми моделями».
GPT-5.4 продолжает работу OpenAI по сокращению галлюцинаций и фактических неточностей. Компания сообщает, что вероятность ошибок в отдельных утверждениях у новой модели на 33% ниже, чем у GPT-5.2, а вероятность ошибок в ответах в целом снизилась на 18%.
В рамках запуска OpenAI переработала способ обработки вызовов инструментов API GPT-5.4, внедрив новую систему под названием Tool Search. Ранее системные подсказки должны были заранее определять все доступные инструменты — процесс, который потреблял значительное количество токенов по мере расширения библиотек инструментов. Новая система позволяет моделям извлекать определения инструментов по запросу, делая запросы более быстрыми и экономичными в средах с большим количеством инструментов.
OpenAI также добавила новую оценку безопасности для анализа цепочки мыслей своих моделей — текущего комментария, раскрывающего ход рассуждений модели при выполнении многоэтапных задач. Исследователи в области безопасности ИИ давно выражают обеспокоенность тем, что модели рассуждений могут искажать свою цепочку мыслей, и тестирование подтверждает, что это может происходить при определенных условиях.
Новая оценка OpenAI указывает на то, что обман менее вероятен в версии GPT-5.4 с функцией Thinking, «что свидетельствует о том, что модель не способна скрывать свои рассуждения и что мониторинг CoT остается эффективным инструментом безопасности».
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Комментарии (0)

В четверг компания OpenAI представила GPT-5.4 — новую базовую модель, которую описывают как «нашу самую мощную и эффективную передовую модель для профессиональной работы». Помимо стандартной версии, GPT-5.4 предлагается в варианте, ориентированном на логическое мышление (GPT-5.4 Thinking), а также в версии с оптимизированной производительностью (GPT-5.4 Pro).
API-версия модели будет поддерживать контекстные окна объемом до 1 миллиона токенов, что станет самой большой емкостью контекста, которую OpenAI когда-либо предлагала.
OpenAI также подчеркнула повышенную эффективность токенов, отметив, что GPT-5.4 может решать идентичные задачи, используя значительно меньше токенов, чем ее предшественница.
Новая модель демонстрирует существенно улучшенные результаты тестирования, достигнув рекордных показателей в тестах OSWorld-Verified и WebArena Verified, предназначенных для оценки компьютерных навыков. Она также установила новый рекорд, набрав 83% в тесте GDPval от OpenAI для задач, связанных с интеллектуальным трудом.
Согласно заявлению генерального директора Mercor Брендана Фуди, GPT-5.4 лидирует в тесте Mercor APEX-Agents, который оценивает профессиональные навыки в области права и финансов.
«[GPT-5.4] отлично справляется с созданием долгосрочных результатов, таких как презентации, финансовые модели и юридический анализ, — заявил Фуди, — демонстрируя производительность высшего уровня при более быстрой работе и меньших затратах по сравнению с конкурирующими передовыми моделями».
GPT-5.4 продолжает работу OpenAI по сокращению галлюцинаций и фактических неточностей. Компания сообщает, что вероятность ошибок в отдельных утверждениях у новой модели на 33% ниже, чем у GPT-5.2, а вероятность ошибок в ответах в целом снизилась на 18%.
В рамках запуска OpenAI переработала способ обработки вызовов инструментов API GPT-5.4, внедрив новую систему под названием Tool Search. Ранее системные подсказки должны были заранее определять все доступные инструменты — процесс, который потреблял значительное количество токенов по мере расширения библиотек инструментов. Новая система позволяет моделям извлекать определения инструментов по запросу, делая запросы более быстрыми и экономичными в средах с большим количеством инструментов.
OpenAI также добавила новую оценку безопасности для анализа цепочки мыслей своих моделей — текущего комментария, раскрывающего ход рассуждений модели при выполнении многоэтапных задач. Исследователи в области безопасности ИИ давно выражают обеспокоенность тем, что модели рассуждений могут искажать свою цепочку мыслей, и тестирование подтверждает, что это может происходить при определенных условиях.
Новая оценка OpenAI указывает на то, что обман менее вероятен в версии GPT-5.4 с функцией Thinking, «что свидетельствует о том, что модель не способна скрывать свои рассуждения и что мониторинг CoT остается эффективным инструментом безопасности».
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения





Дом






