вариант
Дом
Новости
Ай -тесты: Должны ли мы их пока игнорировать?

Ай -тесты: Должны ли мы их пока игнорировать?

10 апреля 2025 г.
216

Добро пожаловать в регулярную рассылку TechCrunch об ИИ! Мы делаем небольшой перерыв, но не волнуйтесь, вы по-прежнему можете найти все наши материалы об ИИ, включая мои колонки, ежедневный анализ и последние новости, прямо здесь, на TechCrunch. Хотите получать эти статьи прямо на вашу электронную почту каждый день? Просто подпишитесь на наши ежедневные рассылки здесь.

На этой неделе стартап ИИ Илона Маска, xAI, представил свою новейшую флагманскую модель ИИ, Grok 3, которая поддерживает приложения чат-бота Grok компании. Они обучали её на впечатляющих 200 000 графических процессорах, и она превосходит множество других ведущих моделей, включая некоторые от OpenAI, в тестах по математике, программированию и другим областям.

Но давайте разберёмся, что на самом деле означают эти тесты.

Здесь, в TC, мы сообщаем о результатах этих тестов, даже если не всегда в восторге от этого, потому что это один из немногих способов, которыми индустрия ИИ пытается показать, как их модели улучшаются. Проблема в том, что популярные тесты ИИ часто сосредоточены на малозначительных вещах и дают результаты, которые не отражают, насколько хорошо ИИ справляется с задачами, которые действительно волнуют людей.

Этан Моллик, профессор Уортонской школы, написал на X, что существует реальная потребность в более качественных тестах и независимых группах, которые их проводят. Он отметил, что компании ИИ часто сами публикуют результаты своих тестов, что затрудняет полное доверие к ним.

"Публичные тесты одновременно и 'так себе', и перенасыщены, из-за чего тестирование ИИ похоже на обзоры еды, основанные на вкусе," — написал Моллик. "Если ИИ критически важен для работы, нам нужно больше."

Многие пытаются разработать новые тесты для ИИ, но никто не может договориться о том, что лучше. Некоторые считают, что тесты должны фокусироваться на экономическом воздействии, чтобы быть полезными, в то время как другие уверены, что реальное внедрение и полезность — истинные меры успеха.

Этот спор может длиться вечно. Возможно, как предложил пользователь X Roon, нам стоит меньше внимания уделять новым моделям и тестам, если только не произойдёт крупный прорыв в ИИ. Это может быть лучше для нашего душевного спокойствия, даже если придётся пропустить часть шумихи вокруг ИИ.

Как упомянуто, This Week in AI берёт перерыв. Спасибо, что остаётесь с нами, читатели, несмотря на все взлёты и падения. До следующего раза.

Новости

Изображение предоставлено: Nathan Laine/Bloomberg / Getty Images
OpenAI пытается "разблокировать" ChatGPT. Макс написал о том, как они меняют подход к разработке ИИ, чтобы поддерживать "интеллектуальную свободу", даже в сложных или спорных темах.

Мира Мурати, бывший технический директор OpenAI, основала новый стартап под названием Thinking Machines Lab. Они работают над инструментами, чтобы "заставить ИИ работать для [уникальных потребностей и целей людей]."

xAI выпустила Grok 3 и добавила новые функции в приложения Grok для iOS и веб.

Meta проводит свою первую конференцию для разработчиков, посвящённую генеративному ИИ, этой весной. Она называется LlamaCon, в честь их моделей Llama, и состоится 29 апреля.

Пол написал о OpenEuroLLM, проекте примерно 20 организаций, направленном на создание базовых моделей для "прозрачного ИИ в Европе", который уважает "лингвистическое и культурное разнообразие" всех языков ЕС.

Исследовательская статья недели

Веб-сайт OpenAI ChatGPT, отображённый на экране ноутбука, показан на этой иллюстрационной фотографии.

Изображение предоставлено: Jakub Porzycki/NurPhoto / Getty Images
Исследователи OpenAI разработали новый тест ИИ под названием SWE-Lancer, чтобы проверить, насколько хорошо ИИ умеет программировать. Он состоит из более чем 1400 задач фрилансеров в области разработки программного обеспечения, от исправления ошибок и добавления функций до предложения технических реализаций.

OpenAI утверждает, что лучшая модель, Claude 3.5 Sonnet от Anthropic, набрала только 40,3% на полном тесте SWE-Lancer, что показывает, что ИИ ещё далеко до совершенства. Они не тестировали новые модели, такие как o3-mini от OpenAI или R1 от DeepSeek из Китая.

Модель недели

Китайская компания ИИ Stepfun выпустила "открытую" модель ИИ под названием Step-Audio, которая может понимать и генерировать речь на китайском, английском и японском языках. Пользователи могут даже настраивать эмоции и диалект синтезированного аудио, включая пение.

Stepfun — одна из нескольких хорошо финансируемых китайских ИИ-стартапов, выпускающих модели с разрешительными лицензиями. Основанная в 2023 году, компания недавно закрыла раунд финансирования на сотни миллионов от инвесторов, включая китайские государственные частные инвестиционные компании.

Разное

Nous Research DeepHermes

Изображение предоставлено: Nous Research
Исследовательская группа Nous Research утверждает, что выпустила одну из первых моделей ИИ, которая сочетает рассуждения с "интуитивными возможностями языковой модели."

Их модель, DeepHermes-3 Preview, может переключаться между короткими и длинными "цепочками мыслей", чтобы сбалансировать точность и вычислительную мощность. В режиме "рассуждений" она тратит больше времени на решение сложных задач и показывает процесс мышления по ходу.

Сообщается, что Anthropic планирует скоро выпустить похожую модель, а OpenAI заявляет, что это в их ближайших планах.

Связанная статья
Грок обрушился с критикой на демократов и Грок обрушился с критикой на демократов и "еврейских руководителей" Голливуда в своих неоднозначных высказываниях В пятницу утром Элон Маск объявил о значительном обновлении @Grok, заявив, что пользователи заметят улучшение производительности при взаимодействии с ИИ-ассистентом. Хотя конкретные данные не были пре
Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность Некоммерческая организация использует агентов искусственного интеллекта для повышения эффективности сбора средств на благотворительность В то время как крупные технологические корпорации продвигают "агентов" искусственного интеллекта как средства повышения производительности бизнеса, одна некоммерческая организация демонстрирует их пот
Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ Ведущие лаборатории искусственного интеллекта предупреждают, что человечество теряет понимание систем ИИ В беспрецедентной демонстрации единства исследователи из OpenAI, Google DeepMind, Anthropic и Meta отложили в сторону конкурентные разногласия, чтобы выступить с коллективным предупреждением об ответс
Комментарии (61)
JonathanDavis
JonathanDavis 19 августа 2025 г., 9:26:53 GMT+03:00

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 августа 2025 г., 8:00:59 GMT+03:00

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 августа 2025 г., 22:00:59 GMT+03:00

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 августа 2025 г., 9:01:00 GMT+03:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 августа 2025 г., 5:48:18 GMT+03:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 июля 2025 г., 4:20:02 GMT+03:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

Вернуться к вершине
OR