OpenAI GPT-5 превосходит человеческие возможности в различных профессиях
В четверг OpenAI представила GDPval — революционный эталон, оценивающий, как её модели ИИ соотносятся с профессионалами-людьми в различных отраслях. Эта оценка знаменует собой первый шаг к определению, могут ли системы OpenAI превзойти людей в экономически значимой работе — ключевой цели компании в стремлении к искусственному общему интеллекту (ИОИ).
По данным OpenAI, как GPT-5, так и Claude Opus 4.1 от Anthropic демонстрируют качество выходных данных, близкое к качеству работы отраслевых специалистов.
Хотя эти выводы не означают немедленной замены человеческого труда, они представляют собой важное отслеживание прогресса. OpenAI признаёт, что GDPval в настоящее время оценивает лишь небольшую часть реальных профессиональных задач, что противоречит прогнозам некоторых CEO о масштабных disruptions от ИИ в ближайшие годы.
GDPval оценивает производительность в девяти ключевых секторах ВВП США — включая здравоохранение, финансы, производство и госуправление — тестируя 44 профессии от программной инженерии до журналистики.
Для GDPval-v0 профессионалы сравнивали отчёты, сгенерированные ИИ, с работами их коллег-людей. Одно из примерных заданий включало анализ инвестиционными банкирами ландшафта конкурентов в сфере последней мили доставки в сравнении с версиями от ИИ. OpenAI рассчитала «процент побед» каждой модели над человеческими результатами по всем профессиям.
Улучшенная модель GPT-5-high соответствовала или превосходила экспертные результаты в 40.6% случаев, в то время как Claude Opus 4.1 достиг показателя паритета в 49% — OpenAI предполагает, что этот более высокий балл может отражать лучшее визуальное представление Claude, а не существенное преимущество.
Присоединяйтесь к 10 000+ инноваторам из сферы технологий и венчурного капитала на Disrupt 2025
С участием Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital и Elad Gil среди 250+ лидеров отрасли, проводящих 200+ сессий, ориентированных на рост. Отпразднуйте 20-летие TechCrunch, получая конкурентные инсайты от ведущих мыслителей в области технологий. Ранняя регистрация до 26 сентября позволяет сэкономить до $668.
Присоединяйтесь к 10 000+ инноваторам из сферы технологий и венчурного капитала на Disrupt 2025
С участием Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital и Elad Gil среди 250+ лидеров отрасли, проводящих 200+ сессий, ориентированных на рост. Отпразднуйте 20-летие TechCrunch, получая конкурентные инсайты от ведущих мыслителей в области технологий. Ранняя регистрация до 26 сентября позволяет сэкономить до $668.

Источник изображения: OpenAI OpenAI признаёт узкую направленность GDPval-v0 — в настоящее время тестируется только генерация исследовательских отчётов — и планирует в будущих итерациях оценивать более широкий спектр рабочих взаимодействий.
Главный экономист доктор Аарон Чаттерджи сообщил TechCrunch, что эти результаты указывают на то, что профессионалы могут всё чаще делегировать рутинные задачи ИИ, освобождая себя для работы с более высокой добавленной стоимостью.
Теджал Патвардхан, возглавляющая оценку, отмечает быстрый прогресс: GPT-4o набрала всего 13.7% пятнадцать месяцев назад, в то время как GPT-5 почти утроила эту производительность — ожидается, что эта траектория сохранится.
Хотя такие тесты, как AIME 2025 и GPQA Diamond, доминируют в оценке ИИ, многие модели приближаются к насыщению на этих академических тестах. GDPval представляет собой растущий акцент на практических, ориентированных на отрасль стандартах оценки — хотя OpenAI требуется более всестороннее тестирование, чтобы окончательно продемонстрировать производительность на уровне человека в профессиональных областях.
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Комментарии (0)
В четверг OpenAI представила GDPval — революционный эталон, оценивающий, как её модели ИИ соотносятся с профессионалами-людьми в различных отраслях. Эта оценка знаменует собой первый шаг к определению, могут ли системы OpenAI превзойти людей в экономически значимой работе — ключевой цели компании в стремлении к искусственному общему интеллекту (ИОИ).
По данным OpenAI, как GPT-5, так и Claude Opus 4.1 от Anthropic демонстрируют качество выходных данных, близкое к качеству работы отраслевых специалистов.
Хотя эти выводы не означают немедленной замены человеческого труда, они представляют собой важное отслеживание прогресса. OpenAI признаёт, что GDPval в настоящее время оценивает лишь небольшую часть реальных профессиональных задач, что противоречит прогнозам некоторых CEO о масштабных disruptions от ИИ в ближайшие годы.
GDPval оценивает производительность в девяти ключевых секторах ВВП США — включая здравоохранение, финансы, производство и госуправление — тестируя 44 профессии от программной инженерии до журналистики.
Для GDPval-v0 профессионалы сравнивали отчёты, сгенерированные ИИ, с работами их коллег-людей. Одно из примерных заданий включало анализ инвестиционными банкирами ландшафта конкурентов в сфере последней мили доставки в сравнении с версиями от ИИ. OpenAI рассчитала «процент побед» каждой модели над человеческими результатами по всем профессиям.
Улучшенная модель GPT-5-high соответствовала или превосходила экспертные результаты в 40.6% случаев, в то время как Claude Opus 4.1 достиг показателя паритета в 49% — OpenAI предполагает, что этот более высокий балл может отражать лучшее визуальное представление Claude, а не существенное преимущество.
Присоединяйтесь к 10 000+ инноваторам из сферы технологий и венчурного капитала на Disrupt 2025
С участием Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital и Elad Gil среди 250+ лидеров отрасли, проводящих 200+ сессий, ориентированных на рост. Отпразднуйте 20-летие TechCrunch, получая конкурентные инсайты от ведущих мыслителей в области технологий. Ранняя регистрация до 26 сентября позволяет сэкономить до $668.
Присоединяйтесь к 10 000+ инноваторам из сферы технологий и венчурного капитала на Disrupt 2025
С участием Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital и Elad Gil среди 250+ лидеров отрасли, проводящих 200+ сессий, ориентированных на рост. Отпразднуйте 20-летие TechCrunch, получая конкурентные инсайты от ведущих мыслителей в области технологий. Ранняя регистрация до 26 сентября позволяет сэкономить до $668.

OpenAI признаёт узкую направленность GDPval-v0 — в настоящее время тестируется только генерация исследовательских отчётов — и планирует в будущих итерациях оценивать более широкий спектр рабочих взаимодействий.
Главный экономист доктор Аарон Чаттерджи сообщил TechCrunch, что эти результаты указывают на то, что профессионалы могут всё чаще делегировать рутинные задачи ИИ, освобождая себя для работы с более высокой добавленной стоимостью.
Теджал Патвардхан, возглавляющая оценку, отмечает быстрый прогресс: GPT-4o набрала всего 13.7% пятнадцать месяцев назад, в то время как GPT-5 почти утроила эту производительность — ожидается, что эта траектория сохранится.
Хотя такие тесты, как AIME 2025 и GPQA Diamond, доминируют в оценке ИИ, многие модели приближаются к насыщению на этих академических тестах. GDPval представляет собой растущий акцент на практических, ориентированных на отрасль стандартах оценки — хотя OpenAI требуется более всестороннее тестирование, чтобы окончательно продемонстрировать производительность на уровне человека в профессиональных областях.
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения





Дом






