Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Почему расхождения в бенчмарках имеют значение для ИИ
Когда речь идет об искусственном интеллекте, цифры часто рассказывают историю, и иногда эти цифры не совсем сходятся. Возьмем, к примеру, модель o3 от OpenAI. Первоначальные заявления были просто ошеломляющими: по сообщениям, o3 могла справиться с более чем 25 % печально известных сложных задач FrontierMath. Для сравнения, конкуренция была на уровне однозначных чисел. Но, переходя к недавним событиям, Epoch AI - уважаемый исследовательский институт - внесла ясность в эту историю. Согласно их выводам, реальная производительность o3 приближается к 10 %. Неплохо, но, конечно, не та цифра, о которой OpenAI изначально заявляла в заголовках.
Что же происходит на самом деле?
Давайте разберемся. Первоначальный результат OpenAI, скорее всего, был получен в оптимальных условиях - условиях, которые, возможно, не совсем воспроизводимы в реальном мире. Epoch отметила, что их тестовая среда может несколько отличаться от среды OpenAI, и даже версия FrontierMath, которую они использовали, была более новой. Это не значит, что OpenAI прямо ввела кого-то в заблуждение: их первоначальные заявления совпадают с внутренними тестами, но расхождение подчеркивает более широкую проблему. Бенчмарки не всегда сравнивают яблоки с яблоками. И давайте посмотрим правде в глаза: у компаний есть стимул выставлять себя в лучшем свете.
Роль прозрачности
Эта ситуация поднимает важный вопрос: Насколько прозрачными должны быть компании, занимающиеся разработкой ИИ, когда они делятся результатами? Хотя OpenAI не лгала, ее сообщения породили ожидания, которые не были полностью оправданы. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но они также должны быть честными в том, что эти цифры на самом деле означают. По мере того как ИИ будет все больше интегрироваться в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.
Другие противоречия в отрасли
Сбои в бенчмаркинге не являются уникальным явлением для OpenAI. Другие игроки в сфере ИИ сталкивались с подобными проблемами. В январе компания Epoch оказалась в горячей воде после того, как приняла нераскрытое финансирование от OpenAI незадолго до анонса o3. В то же время xAI Элона Маска подверглась нападкам за то, что якобы подправила свои эталонные графики, чтобы Grok 3 выглядел лучше, чем на самом деле. Даже Meta, один из технологических гигантов, недавно признался, что продвигал оценки, основанные на модели, которая не была общедоступна. Очевидно, что гонка за лидерство в заголовках газет разгорается, и не все играют честно.
Взгляд в будущее
Хотя эти противоречия могут показаться удручающими, на самом деле они являются признаком прогресса. По мере того как развивается ландшафт ИИ, растет и дискуссия о подотчетности. Потребители и исследователи добиваются большей прозрачности, и это хорошо. Это заставляет компании более вдумчиво относиться к тому, как они представляют свои достижения, и гарантирует, что пользователи не погрязнут в нереалистичной шумихе. В конце концов, цель должна заключаться не в том, чтобы играть с цифрами, а в том, чтобы создавать модели, которые действительно способствуют прогрессу в этой области.
Связанная статья
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность
В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ
В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
ChatGPT добавляет интеграцию с Google Drive и Dropbox для доступа к файлам
ChatGPT повышает продуктивность благодаря новым корпоративным функциямКомпания OpenAI представила две новые мощные функции, превращающие ChatGPT в комплексный инструмент повышения производительности
Комментарии (4)
FrankSmith
10 сентября 2025 г., 9:30:33 GMT+03:00
오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.
0
LiamWalker
12 августа 2025 г., 9:50:10 GMT+03:00
I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎
0
FrankLewis
7 августа 2025 г., 5:41:14 GMT+03:00
The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!
0
NicholasCarter
29 июля 2025 г., 15:25:16 GMT+03:00
The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?
0
Почему расхождения в бенчмарках имеют значение для ИИ
Когда речь идет об искусственном интеллекте, цифры часто рассказывают историю, и иногда эти цифры не совсем сходятся. Возьмем, к примеру, модель o3 от OpenAI. Первоначальные заявления были просто ошеломляющими: по сообщениям, o3 могла справиться с более чем 25 % печально известных сложных задач FrontierMath. Для сравнения, конкуренция была на уровне однозначных чисел. Но, переходя к недавним событиям, Epoch AI - уважаемый исследовательский институт - внесла ясность в эту историю. Согласно их выводам, реальная производительность o3 приближается к 10 %. Неплохо, но, конечно, не та цифра, о которой OpenAI изначально заявляла в заголовках.
Что же происходит на самом деле?
Давайте разберемся. Первоначальный результат OpenAI, скорее всего, был получен в оптимальных условиях - условиях, которые, возможно, не совсем воспроизводимы в реальном мире. Epoch отметила, что их тестовая среда может несколько отличаться от среды OpenAI, и даже версия FrontierMath, которую они использовали, была более новой. Это не значит, что OpenAI прямо ввела кого-то в заблуждение: их первоначальные заявления совпадают с внутренними тестами, но расхождение подчеркивает более широкую проблему. Бенчмарки не всегда сравнивают яблоки с яблоками. И давайте посмотрим правде в глаза: у компаний есть стимул выставлять себя в лучшем свете.
Роль прозрачности
Эта ситуация поднимает важный вопрос: Насколько прозрачными должны быть компании, занимающиеся разработкой ИИ, когда они делятся результатами? Хотя OpenAI не лгала, ее сообщения породили ожидания, которые не были полностью оправданы. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но они также должны быть честными в том, что эти цифры на самом деле означают. По мере того как ИИ будет все больше интегрироваться в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.
Другие противоречия в отрасли
Сбои в бенчмаркинге не являются уникальным явлением для OpenAI. Другие игроки в сфере ИИ сталкивались с подобными проблемами. В январе компания Epoch оказалась в горячей воде после того, как приняла нераскрытое финансирование от OpenAI незадолго до анонса o3. В то же время xAI Элона Маска подверглась нападкам за то, что якобы подправила свои эталонные графики, чтобы Grok 3 выглядел лучше, чем на самом деле. Даже Meta, один из технологических гигантов, недавно признался, что продвигал оценки, основанные на модели, которая не была общедоступна. Очевидно, что гонка за лидерство в заголовках газет разгорается, и не все играют честно.
Взгляд в будущее
Хотя эти противоречия могут показаться удручающими, на самом деле они являются признаком прогресса. По мере того как развивается ландшафт ИИ, растет и дискуссия о подотчетности. Потребители и исследователи добиваются большей прозрачности, и это хорошо. Это заставляет компании более вдумчиво относиться к тому, как они представляют свои достижения, и гарантирует, что пользователи не погрязнут в нереалистичной шумихе. В конце концов, цель должна заключаться не в том, чтобы играть с цифрами, а в том, чтобы создавать модели, которые действительно способствуют прогрессу в этой области.




오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.




I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎




The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!




The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?












