Ай -тесты: Должны ли мы их пока игнорировать?
Добро пожаловать в регулярную рассылку TechCrunch об ИИ! Мы делаем небольшой перерыв, но не волнуйтесь, вы по-прежнему можете найти все наши материалы об ИИ, включая мои колонки, ежедневный анализ и последние новости, прямо здесь, на TechCrunch. Хотите получать эти статьи прямо на вашу электронную почту каждый день? Просто подпишитесь на наши ежедневные рассылки здесь.
На этой неделе стартап ИИ Илона Маска, xAI, представил свою новейшую флагманскую модель ИИ, Grok 3, которая поддерживает приложения чат-бота Grok компании. Они обучали её на впечатляющих 200 000 графических процессорах, и она превосходит множество других ведущих моделей, включая некоторые от OpenAI, в тестах по математике, программированию и другим областям.
Но давайте разберёмся, что на самом деле означают эти тесты.
Здесь, в TC, мы сообщаем о результатах этих тестов, даже если не всегда в восторге от этого, потому что это один из немногих способов, которыми индустрия ИИ пытается показать, как их модели улучшаются. Проблема в том, что популярные тесты ИИ часто сосредоточены на малозначительных вещах и дают результаты, которые не отражают, насколько хорошо ИИ справляется с задачами, которые действительно волнуют людей.
Этан Моллик, профессор Уортонской школы, написал на X, что существует реальная потребность в более качественных тестах и независимых группах, которые их проводят. Он отметил, что компании ИИ часто сами публикуют результаты своих тестов, что затрудняет полное доверие к ним.
"Публичные тесты одновременно и 'так себе', и перенасыщены, из-за чего тестирование ИИ похоже на обзоры еды, основанные на вкусе," — написал Моллик. "Если ИИ критически важен для работы, нам нужно больше."
Многие пытаются разработать новые тесты для ИИ, но никто не может договориться о том, что лучше. Некоторые считают, что тесты должны фокусироваться на экономическом воздействии, чтобы быть полезными, в то время как другие уверены, что реальное внедрение и полезность — истинные меры успеха.
Этот спор может длиться вечно. Возможно, как предложил пользователь X Roon, нам стоит меньше внимания уделять новым моделям и тестам, если только не произойдёт крупный прорыв в ИИ. Это может быть лучше для нашего душевного спокойствия, даже если придётся пропустить часть шумихи вокруг ИИ.
Как упомянуто, This Week in AI берёт перерыв. Спасибо, что остаётесь с нами, читатели, несмотря на все взлёты и падения. До следующего раза.
Новости

Изображение предоставлено: Nathan Laine/Bloomberg / Getty Images OpenAI пытается "разблокировать" ChatGPT. Макс написал о том, как они меняют подход к разработке ИИ, чтобы поддерживать "интеллектуальную свободу", даже в сложных или спорных темах.Мира Мурати, бывший технический директор OpenAI, основала новый стартап под названием Thinking Machines Lab. Они работают над инструментами, чтобы "заставить ИИ работать для [уникальных потребностей и целей людей]."
xAI выпустила Grok 3 и добавила новые функции в приложения Grok для iOS и веб.
Meta проводит свою первую конференцию для разработчиков, посвящённую генеративному ИИ, этой весной. Она называется LlamaCon, в честь их моделей Llama, и состоится 29 апреля.
Пол написал о OpenEuroLLM, проекте примерно 20 организаций, направленном на создание базовых моделей для "прозрачного ИИ в Европе", который уважает "лингвистическое и культурное разнообразие" всех языков ЕС.
Исследовательская статья недели

Изображение предоставлено: Jakub Porzycki/NurPhoto / Getty Images Исследователи OpenAI разработали новый тест ИИ под названием SWE-Lancer, чтобы проверить, насколько хорошо ИИ умеет программировать. Он состоит из более чем 1400 задач фрилансеров в области разработки программного обеспечения, от исправления ошибок и добавления функций до предложения технических реализаций.OpenAI утверждает, что лучшая модель, Claude 3.5 Sonnet от Anthropic, набрала только 40,3% на полном тесте SWE-Lancer, что показывает, что ИИ ещё далеко до совершенства. Они не тестировали новые модели, такие как o3-mini от OpenAI или R1 от DeepSeek из Китая.
Модель недели
Китайская компания ИИ Stepfun выпустила "открытую" модель ИИ под названием Step-Audio, которая может понимать и генерировать речь на китайском, английском и японском языках. Пользователи могут даже настраивать эмоции и диалект синтезированного аудио, включая пение.
Stepfun — одна из нескольких хорошо финансируемых китайских ИИ-стартапов, выпускающих модели с разрешительными лицензиями. Основанная в 2023 году, компания недавно закрыла раунд финансирования на сотни миллионов от инвесторов, включая китайские государственные частные инвестиционные компании.
Разное

Изображение предоставлено: Nous Research Исследовательская группа Nous Research утверждает, что выпустила одну из первых моделей ИИ, которая сочетает рассуждения с "интуитивными возможностями языковой модели."Их модель, DeepHermes-3 Preview, может переключаться между короткими и длинными "цепочками мыслей", чтобы сбалансировать точность и вычислительную мощность. В режиме "рассуждений" она тратит больше времени на решение сложных задач и показывает процесс мышления по ходу.
Сообщается, что Anthropic планирует скоро выпустить похожую модель, а OpenAI заявляет, что это в их ближайших планах.
Связанная статья
Бывший инженер OpenAI делится впечатлениями о культуре компании и быстром росте
Три недели назад Келвин Френч-Оуэн, инженер, работавший над ключевым продуктом OpenAI, покинул компанию.Недавно он опубликовал увлекательный пост в блоге, описывающий его год в OpenAI, включая интенси
Google представляет готовые к использованию модели ИИ Gemini 2.5 для конкуренции с OpenAI на корпоративном рынке
Google в понедельник усилила свою стратегию в области ИИ, запустив продвинутые модели Gemini 2.5 для корпоративного использования и представив экономичный вариант для конкуренции по цене и производите
Meta предлагает высокую зарплату для талантов в области ИИ, опровергая слухи о бонусах в $100 млн
Meta привлекает исследователей ИИ в свою новую лабораторию суперразума с многомиллионными компенсационными пакетами. Однако утверждения о бонусах за подписание контракта в размере $100 миллионов не со
Комментарии (58)
BillyLewis
4 августа 2025 г., 9:01:00 GMT+03:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1 августа 2025 г., 5:48:18 GMT+03:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28 июля 2025 г., 4:20:02 GMT+03:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
26 апреля 2025 г., 8:57:18 GMT+03:00
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
25 апреля 2025 г., 22:19:34 GMT+03:00
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
22 апреля 2025 г., 18:01:53 GMT+03:00
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
Добро пожаловать в регулярную рассылку TechCrunch об ИИ! Мы делаем небольшой перерыв, но не волнуйтесь, вы по-прежнему можете найти все наши материалы об ИИ, включая мои колонки, ежедневный анализ и последние новости, прямо здесь, на TechCrunch. Хотите получать эти статьи прямо на вашу электронную почту каждый день? Просто подпишитесь на наши ежедневные рассылки здесь.
На этой неделе стартап ИИ Илона Маска, xAI, представил свою новейшую флагманскую модель ИИ, Grok 3, которая поддерживает приложения чат-бота Grok компании. Они обучали её на впечатляющих 200 000 графических процессорах, и она превосходит множество других ведущих моделей, включая некоторые от OpenAI, в тестах по математике, программированию и другим областям.
Но давайте разберёмся, что на самом деле означают эти тесты.
Здесь, в TC, мы сообщаем о результатах этих тестов, даже если не всегда в восторге от этого, потому что это один из немногих способов, которыми индустрия ИИ пытается показать, как их модели улучшаются. Проблема в том, что популярные тесты ИИ часто сосредоточены на малозначительных вещах и дают результаты, которые не отражают, насколько хорошо ИИ справляется с задачами, которые действительно волнуют людей.
Этан Моллик, профессор Уортонской школы, написал на X, что существует реальная потребность в более качественных тестах и независимых группах, которые их проводят. Он отметил, что компании ИИ часто сами публикуют результаты своих тестов, что затрудняет полное доверие к ним.
"Публичные тесты одновременно и 'так себе', и перенасыщены, из-за чего тестирование ИИ похоже на обзоры еды, основанные на вкусе," — написал Моллик. "Если ИИ критически важен для работы, нам нужно больше."
Многие пытаются разработать новые тесты для ИИ, но никто не может договориться о том, что лучше. Некоторые считают, что тесты должны фокусироваться на экономическом воздействии, чтобы быть полезными, в то время как другие уверены, что реальное внедрение и полезность — истинные меры успеха.
Этот спор может длиться вечно. Возможно, как предложил пользователь X Roon, нам стоит меньше внимания уделять новым моделям и тестам, если только не произойдёт крупный прорыв в ИИ. Это может быть лучше для нашего душевного спокойствия, даже если придётся пропустить часть шумихи вокруг ИИ.
Как упомянуто, This Week in AI берёт перерыв. Спасибо, что остаётесь с нами, читатели, несмотря на все взлёты и падения. До следующего раза.
Новости
Мира Мурати, бывший технический директор OpenAI, основала новый стартап под названием Thinking Machines Lab. Они работают над инструментами, чтобы "заставить ИИ работать для [уникальных потребностей и целей людей]."
xAI выпустила Grok 3 и добавила новые функции в приложения Grok для iOS и веб.
Meta проводит свою первую конференцию для разработчиков, посвящённую генеративному ИИ, этой весной. Она называется LlamaCon, в честь их моделей Llama, и состоится 29 апреля.
Пол написал о OpenEuroLLM, проекте примерно 20 организаций, направленном на создание базовых моделей для "прозрачного ИИ в Европе", который уважает "лингвистическое и культурное разнообразие" всех языков ЕС.
Исследовательская статья недели
OpenAI утверждает, что лучшая модель, Claude 3.5 Sonnet от Anthropic, набрала только 40,3% на полном тесте SWE-Lancer, что показывает, что ИИ ещё далеко до совершенства. Они не тестировали новые модели, такие как o3-mini от OpenAI или R1 от DeepSeek из Китая.
Модель недели
Китайская компания ИИ Stepfun выпустила "открытую" модель ИИ под названием Step-Audio, которая может понимать и генерировать речь на китайском, английском и японском языках. Пользователи могут даже настраивать эмоции и диалект синтезированного аудио, включая пение.
Stepfun — одна из нескольких хорошо финансируемых китайских ИИ-стартапов, выпускающих модели с разрешительными лицензиями. Основанная в 2023 году, компания недавно закрыла раунд финансирования на сотни миллионов от инвесторов, включая китайские государственные частные инвестиционные компании.
Разное
Их модель, DeepHermes-3 Preview, может переключаться между короткими и длинными "цепочками мыслей", чтобы сбалансировать точность и вычислительную мощность. В режиме "рассуждений" она тратит больше времени на решение сложных задач и показывает процесс мышления по ходу.
Сообщается, что Anthropic планирует скоро выпустить похожую модель, а OpenAI заявляет, что это в их ближайших планах.




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












