вариант
Дом
Новости
Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

7 июня 2025 г.
127

Модель AI o3 от OpenAI показала более низкие результаты в тестировании, чем ожидалось изначально

Почему расхождения в бенчмарках имеют значение для ИИ

Когда речь идет об искусственном интеллекте, цифры часто рассказывают историю, и иногда эти цифры не совсем сходятся. Возьмем, к примеру, модель o3 от OpenAI. Первоначальные заявления были просто ошеломляющими: по сообщениям, o3 могла справиться с более чем 25 % печально известных сложных задач FrontierMath. Для сравнения, конкуренция была на уровне однозначных чисел. Но, переходя к недавним событиям, Epoch AI - уважаемый исследовательский институт - внесла ясность в эту историю. Согласно их выводам, реальная производительность o3 приближается к 10 %. Неплохо, но, конечно, не та цифра, о которой OpenAI изначально заявляла в заголовках.

Что же происходит на самом деле?

Давайте разберемся. Первоначальный результат OpenAI, скорее всего, был получен в оптимальных условиях - условиях, которые, возможно, не совсем воспроизводимы в реальном мире. Epoch отметила, что их тестовая среда может несколько отличаться от среды OpenAI, и даже версия FrontierMath, которую они использовали, была более новой. Это не значит, что OpenAI прямо ввела кого-то в заблуждение: их первоначальные заявления совпадают с внутренними тестами, но расхождение подчеркивает более широкую проблему. Бенчмарки не всегда сравнивают яблоки с яблоками. И давайте посмотрим правде в глаза: у компаний есть стимул выставлять себя в лучшем свете.

Роль прозрачности

Эта ситуация поднимает важный вопрос: Насколько прозрачными должны быть компании, занимающиеся разработкой ИИ, когда они делятся результатами? Хотя OpenAI не лгала, ее сообщения породили ожидания, которые не были полностью оправданы. Это хрупкий баланс. Компании хотят продемонстрировать свои достижения, но они также должны быть честными в том, что эти цифры на самом деле означают. По мере того как ИИ будет все больше интегрироваться в повседневную жизнь, потребители и исследователи будут требовать более четких ответов.

Другие противоречия в отрасли

Сбои в бенчмаркинге не являются уникальным явлением для OpenAI. Другие игроки в сфере ИИ сталкивались с подобными проблемами. В январе компания Epoch оказалась в горячей воде после того, как приняла нераскрытое финансирование от OpenAI незадолго до анонса o3. В то же время xAI Элона Маска подверглась нападкам за то, что якобы подправила свои эталонные графики, чтобы Grok 3 выглядел лучше, чем на самом деле. Даже Meta, один из технологических гигантов, недавно признался, что продвигал оценки, основанные на модели, которая не была общедоступна. Очевидно, что гонка за лидерство в заголовках газет разгорается, и не все играют честно.

Взгляд в будущее

Хотя эти противоречия могут показаться удручающими, на самом деле они являются признаком прогресса. По мере того как развивается ландшафт ИИ, растет и дискуссия о подотчетности. Потребители и исследователи добиваются большей прозрачности, и это хорошо. Это заставляет компании более вдумчиво относиться к тому, как они представляют свои достижения, и гарантирует, что пользователи не погрязнут в нереалистичной шумихе. В конце концов, цель должна заключаться не в том, чтобы играть с цифрами, а в том, чтобы создавать модели, которые действительно способствуют прогрессу в этой области.

Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI Грег Брокман рассказывает, как Илон Маск покинул OpenAI В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Создание анимации Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов
Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов

Откройте для себя лучшие генераторы аниме на основе искусственного интеллекта 2026 года для создания донхуа. Наш список, составленный специально для вас, включает мощные инструменты, позволяющие создавать потрясающих персонажей для веб-новелл и комиксов. Сравните бесплатные и платные варианты на основе реальных тестов. Найдите идеального помощника в творчестве и превратите свои истории в жизнь сегодня на сайте XIX.AI.

10 инструментов
xix.ai
Создание комиксов Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении
Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении

Откройте для себя лучшие инструменты для автоматической раскраски манги с помощью ИИ в 2026 году на сайте XIX.AI. В нашем тщательно составленном списке представлены самые популярные и революционные решения, которые наносят плоские цвета без единой ошибки в цветовом соответствии, что значительно повышает вашу продуктивность. Изучите сравнения бесплатных и платных версий, результаты реальных тестов и еженедельно обновляемые рейтинги, чтобы найти идеальный вариант для себя. Воспользуйтесь преимуществами ИИ уже сегодня.

10 инструментов
xix.ai
письмо Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков
Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов
xix.ai
Бизнес Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине
Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине

Откройте для себя лучшее программное обеспечение 2026 года для оптимизации цен с помощью ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены высокооцененные, революционные инструменты, которые отслеживают конкурентов и автоматически корректируют цены в вашем магазине для получения максимальной прибыли. Сравните бесплатные и платные варианты на основе реальных тестов. Получите преимущество в ценообразовании уже сейчас.

10 инструментов
xix.ai
код Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях
Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях

Откройте для себя 20 лучших рецензентов кода на базе ИИ 2026 года на XIX.AI. В нашем тщательно составленном списке представлены высокооцененные, революционные инструменты для автоматизации проверки соответствия стандартам чистого кода и рефакторинга файлов в устаревших репозиториях. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Получите преимущество ИИ уже сегодня.

10 инструментов
xix.ai
Преобразование текста в речь Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения
Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов
xix.ai
Комментарии (6)
0/500
JackPerez
JackPerez 3 февраля 2026 г., 1:00:45 GMT+03:00

Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔

BruceRoberts
BruceRoberts 16 декабря 2025 г., 13:30:42 GMT+03:00

Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔

FrankSmith
FrankSmith 10 сентября 2025 г., 9:30:33 GMT+03:00

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker
LiamWalker 12 августа 2025 г., 9:50:10 GMT+03:00

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis
FrankLewis 7 августа 2025 г., 5:41:14 GMT+03:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 29 июля 2025 г., 15:25:16 GMT+03:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

OR