вариант
Дом
Новости
Модели AI «рассуждения» всплывают, что повышает затраты на сравнение

Модели AI «рассуждения» всплывают, что повышает затраты на сравнение

22 апреля 2025 г.
112

Модели AI «рассуждения» всплывают, что повышает затраты на сравнение

Растущие затраты на тестирование моделей искусственного интеллекта с функцией рассуждения

Лаборатории ИИ, такие как OpenAI, активно рекламируют свои продвинутые модели ИИ с функцией "рассуждения", которые разработаны для пошагового решения сложных задач. Эти модели, особенно эффективные в таких областях, как физика, действительно впечатляют. Однако их тестирование обходится дорого, что затрудняет независимую проверку их возможностей.

Согласно данным Artificial Analysis, сторонней компании по тестированию ИИ, стоимость оценки модели рассуждения o1 от OpenAI на семи популярных тестах ИИ составляет ошеломляющие $2,767.05. Эти тесты включают MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500. Для сравнения, тестирование "гибридной" модели рассуждения Claude 3.7 Sonnet от Anthropic на тех же тестах обошлось в $1,485.35, а модель o3-mini-high от OpenAI была значительно дешевле — $344.59.

Не все модели рассуждения одинаково дороги в тестировании. Например, Artificial Analysis потратила всего $141.22 на оценку модели o1-mini от OpenAI. Однако в среднем затраты на тестирование таких моделей высоки. Artificial Analysis потратила около $5,200 на оценку примерно дюжины моделей рассуждения, что почти вдвое больше, чем $2,400, потраченные на анализ более 80 моделей без функции рассуждения.

Для сравнения, модель без функции рассуждения GPT-4o от OpenAI, выпущенная в мае 2024 года, обошлась Artificial Analysis в $108.85 для оценки, в то время как Claude 3.6 Sonnet, предшественник Claude 3.7 Sonnet без функции рассуждения, стоила $81.41.

Джордж Кэмерон, сооснователь Artificial Analysis, поделился с TechCrunch, что организация готова увеличить бюджет на тестирование, поскольку всё больше лабораторий ИИ продолжают разрабатывать модели рассуждения. "В Artificial Analysis мы проводим сотни оценок ежемесячно и выделяем значительный бюджет на эти цели," — заявил Кэмерон. "Мы планируем увеличить эти расходы, поскольку модели выпускаются всё чаще."

Artificial Analysis не единственная, кто сталкивается с растущими затратами. Росс Тейлор, генеральный директор стартапа в области ИИ General Reasoning, недавно потратил $580 на оценку Claude 3.7 Sonnet на примерно 3,700 уникальных запросах. Тейлор оценивает, что один прогон теста MMLU Pro, предназначенного для проверки понимания языка, обойдётся более чем в $1,800.

Тейлор выразил растущую озабоченность в недавнем посте на X, заявив: "Мы движемся к миру, где лаборатория сообщает о достижении x% на тесте, на который они потратили y вычислительных ресурсов, но ресурсы для академиков значительно меньше y. Никто не сможет воспроизвести эти результаты."

Почему тестирование моделей рассуждения так дорого?

Основная причина высоких затрат на тестирование моделей рассуждения — их склонность генерировать большое количество токенов. Токены — это единицы необработанного текста; например, слово "фантастический" может быть разбито на "фан", "тас" и "тик". По данным Artificial Analysis, модель o1 от OpenAI сгенерировала более 44 миллионов токенов во время тестов, что примерно в восемь раз больше, чем количество токенов, сгенерированных моделью без функции рассуждения GPT-4o.

Большинство компаний ИИ взимают плату за использование моделей на основе количества токенов, что быстро увеличивает затраты. Кроме того, современные тесты разработаны так, чтобы вызывать большое количество токенов, включая вопросы, которые требуют выполнения сложных, многоэтапных задач. Жан-Станислас Денен, старший исследователь Epoch AI, объяснил TechCrunch: "Сегодняшние тесты более сложные, хотя общее количество вопросов в тестах уменьшилось. Они часто пытаются оценить способность моделей выполнять реальные задачи, такие как написание и выполнение кода, просмотр интернета и использование компьютеров."

Денен также отметил, что стоимость одного токена для самых дорогих моделей растёт. Например, когда модель Claude 3 Opus от Anthropic была выпущена в мае 2024 года, она стоила $75 за миллион выходных токенов. В то же время модели GPT-4.5 и o1-pro от OpenAI, выпущенные ранее в том же году, стоили $150 и $600 за миллион выходных токенов соответственно.

Несмотря на рост стоимости за токен, Денен отметил: "Поскольку модели со временем становятся лучше, всё ещё верно, что затраты на достижение определённого уровня производительности значительно снизились. Но если вы хотите оценить лучшие крупные модели в любой момент времени, вы всё равно платите больше."

Целостность тестирования

Многие лаборатории ИИ, включая OpenAI, предлагают бесплатный или субсидируемый доступ к своим моделям для целей тестирования. Однако эта практика вызывает вопросы о целостности процесса оценки. Даже без доказательств манипуляций, само предположение о вовлечённости лаборатории ИИ может поставить под сомнение объективность результатов.

Росс Тейлор выразил эту озабоченность на X, задав вопрос: "С научной точки зрения, если вы публикуете результат, который никто не может воспроизвести с той же моделью, является ли это вообще наукой? (Было ли это когда-либо наукой, лол)"

Высокие затраты и потенциальные предвзятости в тестировании ИИ подчёркивают проблемы, с которыми сталкивается эта область, стремящаяся разрабатывать и проверять всё более сложные модели.

Связанная статья
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad DeepMind's AI Secures Gold at 2025 Math Olympiad ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
AI-управляемый Parallax Maker: Создание динамичных 2.5D анимаций AI-управляемый Parallax Maker: Создание динамичных 2.5D анимаций Преобразуйте статические изображения в захватывающие 2.5D анимации с помощью Parallax Maker. Этот инструмент с открытым исходным кодом позволяет художникам и разработчикам игр добавлять глубину и движ
Комментарии (17)
FrankJackson
FrankJackson 10 августа 2025 г., 12:01:00 GMT+03:00

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 28 июля 2025 г., 4:20:21 GMT+03:00

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 24 апреля 2025 г., 15:58:05 GMT+03:00

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 24 апреля 2025 г., 10:52:48 GMT+03:00

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 24 апреля 2025 г., 10:10:43 GMT+03:00

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 24 апреля 2025 г., 7:23:58 GMT+03:00

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

Вернуться к вершине
OR