

Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Почему расхождения в бенчмарках важны в ИИ
Когда речь заходит о ИИ, цифры часто рассказывают историю — и иногда эти цифры не совсем складываются. Возьмем, к примеру, модель o3 от OpenAI. Начальные заявления были просто поразительными: o3 мог reportedly справиться с более чем 25% чрезвычайно сложных задач FrontierMath. Для сравнения, конкуренты застряли на уровне низких единиц. Но если взглянуть на последние разработки, то исследовательский институт Epoch AI — уважаемая организация — внесла свои коррективы. Их исследования показывают, что фактическая производительность o3 находится где-то около 10%. Не плохо, но явно не таheadline-атtracting цифра, которая была объявлена OpenAI изначально.
Что на самом деле происходит?
Давайте разберем это. Оригинальная оценка OpenAI, вероятно, была достигнута при оптимальных условиях — условия, которые могут быть не полностью воспроизводимыми в реальном мире. Epoch указал, что их тестовая среда может немного отличаться от той, что использовалась OpenAI, и даже версия FrontierMath, которой они пользовались, была новее. Это не значит, что OpenAI намеренно ввела кого-либо в заблуждение; их первоначальные заявления соответствовали внутренним тестам, но расхождения подчеркивают более широкую проблему. Бенчмарки не всегда являются прямым сравнением. И давайте будем честными, компании имеют стимул показать свою лучшую сторону.
Роль прозрачности
Эта ситуация поднимает важный вопрос: насколько прозрачными должны быть компании ИИ, когда делятся результатами? Хотя OpenAI не лгал явно, их сообщения создали ожидания, которые не были полностью выполнены. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но им также нужно честно говорить, что означают эти цифры. По мере того как ИИ становится все более интегрированным в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.
Другие споры в отрасли
Проблемы с бенчмарками не уникальны для OpenAI. Другие игроки в мире ИИ сталкивались с подобной критикой. Ранее в январе Epoch попал в беду после того, как принял неизвестное финансирование от OpenAI непосредственно перед анонсом o3. Между тем, xAI Элона Маска подверглись критике за то, что якобы корректировали графики бенчмарков, чтобы сделать Grok 3 лучше, чем он есть на самом деле. Даже Meta, одна из гигантов технологий, недавно призналась в продвижении результатов на основе модели, которая не была доступна публично. Очевидно, гонка за головными новостями усиливается — и не все играют по правилам.
Глядя в будущее
Хотя эти споры могут показаться разочаровывающими, на самом деле это признак прогресса. По мере взросления мира ИИ также взрослеет и дискурс вокруг ответственности. Потребители и исследователи требуют большей прозрачности, и это хорошо. Это заставляет компании быть более внимательными в том, как они представляют свои достижения — и обеспечивает, чтобы пользователи не попадали в необоснованный ажиотаж. В конечном итоге цель должна быть не в том, чтобы манипулировать цифрами, а в том, чтобы создавать модели, которые действительно продвигают поле.
Связанная статья
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
訪問OpenAI API中的未來AI模型可能需要驗證身份
OpenAI 推出「已驗證組織」計劃以獲取進階人工智慧訪問權上週,OpenAI 宣布對其開發者政策進行重大更新,推出了新的驗證過程稱為「已驗證組織」。此舉旨在增強安全性並確保公司最進階的人工智慧模型和工具得到負責的使用。雖然該計劃代表著更廣泛的可用性,但它也表明了 OpenAI 認識到管理與日益強大的人工智慧技術相關潛在風險的方式發生了變化。根據 OpenA
Комментарии (0)
Почему расхождения в бенчмарках важны в ИИ
Когда речь заходит о ИИ, цифры часто рассказывают историю — и иногда эти цифры не совсем складываются. Возьмем, к примеру, модель o3 от OpenAI. Начальные заявления были просто поразительными: o3 мог reportedly справиться с более чем 25% чрезвычайно сложных задач FrontierMath. Для сравнения, конкуренты застряли на уровне низких единиц. Но если взглянуть на последние разработки, то исследовательский институт Epoch AI — уважаемая организация — внесла свои коррективы. Их исследования показывают, что фактическая производительность o3 находится где-то около 10%. Не плохо, но явно не таheadline-атtracting цифра, которая была объявлена OpenAI изначально.
Что на самом деле происходит?
Давайте разберем это. Оригинальная оценка OpenAI, вероятно, была достигнута при оптимальных условиях — условия, которые могут быть не полностью воспроизводимыми в реальном мире. Epoch указал, что их тестовая среда может немного отличаться от той, что использовалась OpenAI, и даже версия FrontierMath, которой они пользовались, была новее. Это не значит, что OpenAI намеренно ввела кого-либо в заблуждение; их первоначальные заявления соответствовали внутренним тестам, но расхождения подчеркивают более широкую проблему. Бенчмарки не всегда являются прямым сравнением. И давайте будем честными, компании имеют стимул показать свою лучшую сторону.
Роль прозрачности
Эта ситуация поднимает важный вопрос: насколько прозрачными должны быть компании ИИ, когда делятся результатами? Хотя OpenAI не лгал явно, их сообщения создали ожидания, которые не были полностью выполнены. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но им также нужно честно говорить, что означают эти цифры. По мере того как ИИ становится все более интегрированным в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.
Другие споры в отрасли
Проблемы с бенчмарками не уникальны для OpenAI. Другие игроки в мире ИИ сталкивались с подобной критикой. Ранее в январе Epoch попал в беду после того, как принял неизвестное финансирование от OpenAI непосредственно перед анонсом o3. Между тем, xAI Элона Маска подверглись критике за то, что якобы корректировали графики бенчмарков, чтобы сделать Grok 3 лучше, чем он есть на самом деле. Даже Meta, одна из гигантов технологий, недавно призналась в продвижении результатов на основе модели, которая не была доступна публично. Очевидно, гонка за головными новостями усиливается — и не все играют по правилам.
Глядя в будущее
Хотя эти споры могут показаться разочаровывающими, на самом деле это признак прогресса. По мере взросления мира ИИ также взрослеет и дискурс вокруг ответственности. Потребители и исследователи требуют большей прозрачности, и это хорошо. Это заставляет компании быть более внимательными в том, как они представляют свои достижения — и обеспечивает, чтобы пользователи не попадали в необоснованный ажиотаж. В конечном итоге цель должна быть не в том, чтобы манипулировать цифрами, а в том, чтобы создавать модели, которые действительно продвигают поле.












