вариант
Дом
Новости
Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

7 июня 2025 г.
48

Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Почему расхождения в бенчмарках важны в ИИ

Когда речь заходит о ИИ, цифры часто рассказывают историю — и иногда эти цифры не совсем складываются. Возьмем, к примеру, модель o3 от OpenAI. Начальные заявления были просто поразительными: o3 мог reportedly справиться с более чем 25% чрезвычайно сложных задач FrontierMath. Для сравнения, конкуренты застряли на уровне низких единиц. Но если взглянуть на последние разработки, то исследовательский институт Epoch AI — уважаемая организация — внесла свои коррективы. Их исследования показывают, что фактическая производительность o3 находится где-то около 10%. Не плохо, но явно не таheadline-атtracting цифра, которая была объявлена OpenAI изначально.

Что на самом деле происходит?

Давайте разберем это. Оригинальная оценка OpenAI, вероятно, была достигнута при оптимальных условиях — условия, которые могут быть не полностью воспроизводимыми в реальном мире. Epoch указал, что их тестовая среда может немного отличаться от той, что использовалась OpenAI, и даже версия FrontierMath, которой они пользовались, была новее. Это не значит, что OpenAI намеренно ввела кого-либо в заблуждение; их первоначальные заявления соответствовали внутренним тестам, но расхождения подчеркивают более широкую проблему. Бенчмарки не всегда являются прямым сравнением. И давайте будем честными, компании имеют стимул показать свою лучшую сторону.

Роль прозрачности

Эта ситуация поднимает важный вопрос: насколько прозрачными должны быть компании ИИ, когда делятся результатами? Хотя OpenAI не лгал явно, их сообщения создали ожидания, которые не были полностью выполнены. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но им также нужно честно говорить, что означают эти цифры. По мере того как ИИ становится все более интегрированным в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.

Другие споры в отрасли

Проблемы с бенчмарками не уникальны для OpenAI. Другие игроки в мире ИИ сталкивались с подобной критикой. Ранее в январе Epoch попал в беду после того, как принял неизвестное финансирование от OpenAI непосредственно перед анонсом o3. Между тем, xAI Элона Маска подверглись критике за то, что якобы корректировали графики бенчмарков, чтобы сделать Grok 3 лучше, чем он есть на самом деле. Даже Meta, одна из гигантов технологий, недавно призналась в продвижении результатов на основе модели, которая не была доступна публично. Очевидно, гонка за головными новостями усиливается — и не все играют по правилам.

Глядя в будущее

Хотя эти споры могут показаться разочаровывающими, на самом деле это признак прогресса. По мере взросления мира ИИ также взрослеет и дискурс вокруг ответственности. Потребители и исследователи требуют большей прозрачности, и это хорошо. Это заставляет компании быть более внимательными в том, как они представляют свои достижения — и обеспечивает, чтобы пользователи не попадали в необоснованный ажиотаж. В конечном итоге цель должна быть не в том, чтобы манипулировать цифрами, а в том, чтобы создавать модели, которые действительно продвигают поле.

Связанная статья
Бывший инженер OpenAI делится впечатлениями о культуре компании и быстром росте Бывший инженер OpenAI делится впечатлениями о культуре компании и быстром росте Три недели назад Келвин Френч-Оуэн, инженер, работавший над ключевым продуктом OpenAI, покинул компанию.Недавно он опубликовал увлекательный пост в блоге, описывающий его год в OpenAI, включая интенси
Google представляет готовые к использованию модели ИИ Gemini 2.5 для конкуренции с OpenAI на корпоративном рынке Google представляет готовые к использованию модели ИИ Gemini 2.5 для конкуренции с OpenAI на корпоративном рынке Google в понедельник усилила свою стратегию в области ИИ, запустив продвинутые модели Gemini 2.5 для корпоративного использования и представив экономичный вариант для конкуренции по цене и производите
Meta предлагает высокую зарплату для талантов в области ИИ, опровергая слухи о бонусах в $100 млн Meta предлагает высокую зарплату для талантов в области ИИ, опровергая слухи о бонусах в $100 млн Meta привлекает исследователей ИИ в свою новую лабораторию суперразума с многомиллионными компенсационными пакетами. Однако утверждения о бонусах за подписание контракта в размере $100 миллионов не со
FrankLewis
FrankLewis 7 августа 2025 г., 5:41:14 GMT+03:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 29 июля 2025 г., 15:25:16 GMT+03:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

Вернуться к вершине
OR