вариант
Дом
Новости
Ай -тесты: Должны ли мы их пока игнорировать?

Ай -тесты: Должны ли мы их пока игнорировать?

10 апреля 2025 г.
240

Добро пожаловать в регулярную рассылку TechCrunch об ИИ! Мы делаем небольшой перерыв, но не волнуйтесь, вы по-прежнему можете найти все наши материалы об ИИ, включая мои колонки, ежедневный анализ и последние новости, прямо здесь, на TechCrunch. Хотите получать эти статьи прямо на вашу электронную почту каждый день? Просто подпишитесь на наши ежедневные рассылки здесь.

На этой неделе стартап ИИ Илона Маска, xAI, представил свою новейшую флагманскую модель ИИ, Grok 3, которая поддерживает приложения чат-бота Grok компании. Они обучали её на впечатляющих 200 000 графических процессорах, и она превосходит множество других ведущих моделей, включая некоторые от OpenAI, в тестах по математике, программированию и другим областям.

Но давайте разберёмся, что на самом деле означают эти тесты.

Здесь, в TC, мы сообщаем о результатах этих тестов, даже если не всегда в восторге от этого, потому что это один из немногих способов, которыми индустрия ИИ пытается показать, как их модели улучшаются. Проблема в том, что популярные тесты ИИ часто сосредоточены на малозначительных вещах и дают результаты, которые не отражают, насколько хорошо ИИ справляется с задачами, которые действительно волнуют людей.

Этан Моллик, профессор Уортонской школы, написал на X, что существует реальная потребность в более качественных тестах и независимых группах, которые их проводят. Он отметил, что компании ИИ часто сами публикуют результаты своих тестов, что затрудняет полное доверие к ним.

"Публичные тесты одновременно и 'так себе', и перенасыщены, из-за чего тестирование ИИ похоже на обзоры еды, основанные на вкусе," — написал Моллик. "Если ИИ критически важен для работы, нам нужно больше."

Многие пытаются разработать новые тесты для ИИ, но никто не может договориться о том, что лучше. Некоторые считают, что тесты должны фокусироваться на экономическом воздействии, чтобы быть полезными, в то время как другие уверены, что реальное внедрение и полезность — истинные меры успеха.

Этот спор может длиться вечно. Возможно, как предложил пользователь X Roon, нам стоит меньше внимания уделять новым моделям и тестам, если только не произойдёт крупный прорыв в ИИ. Это может быть лучше для нашего душевного спокойствия, даже если придётся пропустить часть шумихи вокруг ИИ.

Как упомянуто, This Week in AI берёт перерыв. Спасибо, что остаётесь с нами, читатели, несмотря на все взлёты и падения. До следующего раза.

Новости

Изображение предоставлено: Nathan Laine/Bloomberg / Getty Images
OpenAI пытается "разблокировать" ChatGPT. Макс написал о том, как они меняют подход к разработке ИИ, чтобы поддерживать "интеллектуальную свободу", даже в сложных или спорных темах.

Мира Мурати, бывший технический директор OpenAI, основала новый стартап под названием Thinking Machines Lab. Они работают над инструментами, чтобы "заставить ИИ работать для [уникальных потребностей и целей людей]."

xAI выпустила Grok 3 и добавила новые функции в приложения Grok для iOS и веб.

Meta проводит свою первую конференцию для разработчиков, посвящённую генеративному ИИ, этой весной. Она называется LlamaCon, в честь их моделей Llama, и состоится 29 апреля.

Пол написал о OpenEuroLLM, проекте примерно 20 организаций, направленном на создание базовых моделей для "прозрачного ИИ в Европе", который уважает "лингвистическое и культурное разнообразие" всех языков ЕС.

Исследовательская статья недели

Веб-сайт OpenAI ChatGPT, отображённый на экране ноутбука, показан на этой иллюстрационной фотографии.

Изображение предоставлено: Jakub Porzycki/NurPhoto / Getty Images
Исследователи OpenAI разработали новый тест ИИ под названием SWE-Lancer, чтобы проверить, насколько хорошо ИИ умеет программировать. Он состоит из более чем 1400 задач фрилансеров в области разработки программного обеспечения, от исправления ошибок и добавления функций до предложения технических реализаций.

OpenAI утверждает, что лучшая модель, Claude 3.5 Sonnet от Anthropic, набрала только 40,3% на полном тесте SWE-Lancer, что показывает, что ИИ ещё далеко до совершенства. Они не тестировали новые модели, такие как o3-mini от OpenAI или R1 от DeepSeek из Китая.

Модель недели

Китайская компания ИИ Stepfun выпустила "открытую" модель ИИ под названием Step-Audio, которая может понимать и генерировать речь на китайском, английском и японском языках. Пользователи могут даже настраивать эмоции и диалект синтезированного аудио, включая пение.

Stepfun — одна из нескольких хорошо финансируемых китайских ИИ-стартапов, выпускающих модели с разрешительными лицензиями. Основанная в 2023 году, компания недавно закрыла раунд финансирования на сотни миллионов от инвесторов, включая китайские государственные частные инвестиционные компании.

Разное

Nous Research DeepHermes

Изображение предоставлено: Nous Research
Исследовательская группа Nous Research утверждает, что выпустила одну из первых моделей ИИ, которая сочетает рассуждения с "интуитивными возможностями языковой модели."

Их модель, DeepHermes-3 Preview, может переключаться между короткими и длинными "цепочками мыслей", чтобы сбалансировать точность и вычислительную мощность. В режиме "рассуждений" она тратит больше времени на решение сложных задач и показывает процесс мышления по ходу.

Сообщается, что Anthropic планирует скоро выпустить похожую модель, а OpenAI заявляет, что это в их ближайших планах.

Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Сроки аренды помещений у SpaceX компанией Anthropic вызывают разногласия Сроки аренды помещений у SpaceX компанией Anthropic вызывают разногласия В начале этого месяца компания xAI заключила крупное соглашение с Anthropic о предоставлении вычислительных мощностей, выделив миллиарды долларов в месяц за эксклюзивный доступ к кластеру Colossus. Сд
Рекомендации по связанным специальным темам
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Бизнес Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами
Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов
xix.ai
Производительность Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии
Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью
Лучшие романтические чат-боты на базе ИИ: постройте долгосрочные отношения с помощью чат-ботов с устойчивой индивидуальностью

Откройте для себя лучшие романтические чат-боты с искусственным интеллектом 2026 года, которые помогут вам построить искренние и долгосрочные отношения. В нашем тщательно составленном списке вы найдете чат-ботов с яркими и последовательными личностями, сравнение бесплатных и платных версий, а также результаты реальных тестов. Найдите своего идеального спутника и начните строить отношения уже сегодня на XIX.AI.

10 инструментов
xix.ai
Образование и обучение Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения
Лучшие наставники в области искусственного интеллекта и науки о данных: мастерство работы с SQL, библиотекой Pandas и рабочими процессами машинного обучения

Откройте для себя 20 лучших наставников в области искусственного интеллекта и науки о данных на 2026 год, которые помогут вам овладеть SQL, Pandas и рабочими процессами машинного обучения. Изучите наш тщательно отобранный список на сайте XIX.AI – здесь вы найдете эффективные рекомендации, способные изменить ход ваших работ. Сравните бесплатные и платные варианты с примерами из реальной практики. Освоите науку о данных уже сегодня.

10 инструментов
xix.ai
чат-бот Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени
Лучшие тренажеры по флирту и общению на базе ИИ: повышайте свою харизму и уверенность в себе в режиме реального времени

Откройте для себя 20 лучших тренажеров по флирту и общению с ИИ на сайте XIX.AI. Наша тщательно подобранная подборка самых популярных инструментов поможет вам развить коммуникабельность и уверенность в себе в режиме реального времени. Ознакомьтесь с незаменимыми инструментами, которые кардинально изменят вашу жизнь, — с сравнением бесплатных и платных версий и еженедельно обновляемым рейтингом. Раскройте свой коммуникативный потенциал уже сегодня.

10 инструментов
xix.ai
Комментарии (61)
0/500
JonathanDavis
JonathanDavis 19 августа 2025 г., 9:26:53 GMT+03:00

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 августа 2025 г., 8:00:59 GMT+03:00

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 августа 2025 г., 22:00:59 GMT+03:00

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 августа 2025 г., 9:01:00 GMT+03:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 августа 2025 г., 5:48:18 GMT+03:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 июля 2025 г., 4:20:02 GMT+03:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR