Ай -тесты: Должны ли мы их пока игнорировать?
10 апреля 2025 г.
MarkWilson
79
Добро пожаловать в регулярную рассылку AI TechCrunch! Мы делаем небольшой перерыв, но не волнуйтесь, вы все равно можете получить все наше освещение в области ИИ, включая мои колонки, ежедневное анализ и разбрызгивание новостей, прямо здесь, в TechCrunch. Хотите, чтобы эти истории были прямо на ваш почтовый ящик каждый день? Просто подпишитесь на наши ежедневные информационные бюллетени здесь.
На этой неделе стартап ИИ Элона Маска, XAI, сбросил свою последнюю флагманскую модель ИИ, Grok 3, которая питает приложения компании Grok Chatbot. Они обучали его на колоссальных 200 000 графических процессоров, и это превосходит кучу других лучших моделей, в том числе из OpenAI, в критериях по математике, кодированию и многое другое.
Но давайте поговорим о том, что на самом деле означают эти тесты.
Здесь, в TC, мы сообщаем об этих эталонных цифрах, даже если мы не всегда взволнованы этим, потому что они один из немногих способов, которыми индустрия искусственного интеллекта пытается продемонстрировать, как улучшаются их модели. Дело в том, что эти популярные тесты ИИ часто сосредоточены на неясных вещах и дают счет, которые на самом деле не отражают, насколько хорошо ИИ делает то, о чем люди на самом деле заботятся.
Этан Моллик, профессор Wharton, взял на себя X, чтобы сказать, что существует реальная потребность в лучших тестах и независимых группах для их запуска. Он указал, что компании по искусственному искусству часто сообщают о своих собственных контрольных результатах, что затрудняет их полностью доверять.
«Общественные тесты являются как« мех », так и насыщенными, оставляя много испытаний на ИИ, чтобы быть похожими на обзоры продуктов питания, основываясь на вкусе», - написал Моллик. «Если ИИ имеет решающее значение для работы, нам нужно больше».
Есть много людей, которые пытаются придумать новые тесты для ИИ, но никто не может согласиться с тем, что лучше. Некоторые считают, что эталоны должны сосредоточиться на экономическом воздействии, чтобы быть полезными, в то время как другие считают, что в реальном мире принятие и полезность являются истинными показателями успеха.
Эта дебаты могут продолжаться вечно. Возможно, как предполагает x пользователь Rooon, мы должны просто уделять меньше внимания на новые модели и критерии, если не существует крупного прорыва ИИ. Это может быть лучше для нашего здравомыслия, даже если это означает пропустить какую -то ажиотаж искусственного интеллекта.
Как уже упоминалось, на этой неделе в ИИ делает перерыв. Спасибо, что придерживались нас, читатели, через все взлеты и падения. До следующего раза.
Новости

Кредиты изображения: Натан Лейн / Блумберг / Гетти Изображения Openai пытается «безенцар» Chatgpt. Макс писал о том, как они меняют свой подход к развитию ИИ, чтобы охватить «интеллектуальную свободу», даже на жесткие или противоречивые темы.
У Мира Мурати, бывшего технического директора Openai, есть новый стартап под названием Think Machines Lab. Они работают над инструментами, чтобы «заставить ИИ работать на уникальные потребности и цели [людей]».
XAI выпустил Grok 3 и добавил новые функции в приложения Grok для iOS и Интернет.
Meta проводит свою первую конференцию разработчиков, ориентированную на генеративного ИИ этой весной. Это называется Llamacon, после их моделей ламы, и это происходит 29 апреля.
Пол писал о OpenEurollm, проекте около 20 организаций по созданию моделей фонда для «прозрачного ИИ в Европе», который уважает «лингвистическое и культурное разнообразие» всех языков ЕС.
Исследовательская работа недели

Кредиты изображения: Jakub Porzycki / Nurphoto / Getty Images Исследователи Openai придумали новый эталон искусственного интеллекта под названием Swe-Lancer, чтобы проверить, насколько хорошо может кодировать ИИ. Он состоит из более чем 1400 задач по разработке программного обеспечения, от исправления ошибок и добавления функций до предложения технических реализаций.
Openai говорит, что максимальная модель, сонет Claude 3,5 от Anpropic, набрала только 40,3% на полном эталонном эталоне Swe-Lancer, который показывает, что ИИ еще предстоит пройти долгий путь. Они не тестировали более новые модели, такие как O3-Mini's O3-Mini или Deepseek's R1 из Китая.
Модель недели
Китайская компания по искусству под названием Stepfun выпустила «открытую» модель ИИ под названием Step-Audio, которая может понять и генерировать речь на китайском, английском и японском языке. Пользователи могут даже настроить эмоции и диалект синтетического звука, включая пение.
Stepfun-один из нескольких хорошо финансируемых китайских стартапов AI, выпускающих модели с разрешающими лицензиями. Основанные в 2023 году, они недавно закрыли раунд финансирования на сумму сотен миллионов инвесторов, в том числе китайские государственные частные акционерные компании.
Захватить сумку

Кредиты изображения: Nous Research Nous Research, исследовательская группа ИИ, утверждает, что выпустила одну из первых моделей искусственного интеллекта, которая объединяет рассуждения с «интуитивно понятными возможностями языковых моделей».
Их модель, предварительный просмотр DeepHermes-3, может переключаться между короткими и длинными «цепочками мышления», чтобы сбалансировать точность и вычислительную мощность. В режиме «рассуждения» требуется больше времени, чтобы решить более сложные проблемы и показывает его мыслительный процесс на этом пути.
По сообщениям, Anpropic планирует выпустить аналогичную модель, и Openai говорит, что она находится на их ближайшей дорожной карте.
Связанная статья
Google Search presenta 'Modo AI' para consultas complejas de varias partes
Google presenta el "modo AI" en busca de rivalizar la perplejidad AI y Chatgptgoogle está intensificando su juego en el AI Arena con el lanzamiento de una función experimental de "modo AI" en su motor de búsqueda. Dirigido a asumir Perplexity AI y la búsqueda de chatgpt de OpenAi, este nuevo modo se anunció en el miércoles
El uso no solicitado de chatgpt de nombres de usuarios de chispas de chispas de preocupaciones entre algunos
Algunos usuarios de ChatGPT recientemente han encontrado una nueva característica extraña: el chatbot ocasionalmente usa su nombre mientras trabaja en los problemas. Esto no era parte de su comportamiento habitual antes, y muchos usuarios informan que ChatGPT menciona sus nombres sin que se les haya dicho nunca. Opiniones sobre
Operai mejora el chatgpt para recuperar conversaciones anteriores
Operai hizo un gran anuncio el jueves sobre implementar una nueva característica en Chatgpt llamada "Memory". Esta ingeniosa herramienta está diseñada para hacer que sus chats con la IA sean más personalizadas al recordar de lo que ha hablado antes. Imagina no tener que repetirte cada vez que comienzas una nueva transmisión
Комментарии (55)
FredAnderson
10 апреля 2025 г., 13:30:25 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 апреля 2025 г., 3:44:49 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 апреля 2025 г., 13:20:05 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
10 апреля 2025 г., 20:29:13 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 апреля 2025 г., 6:46:34 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 апреля 2025 г., 12:48:46 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0






Добро пожаловать в регулярную рассылку AI TechCrunch! Мы делаем небольшой перерыв, но не волнуйтесь, вы все равно можете получить все наше освещение в области ИИ, включая мои колонки, ежедневное анализ и разбрызгивание новостей, прямо здесь, в TechCrunch. Хотите, чтобы эти истории были прямо на ваш почтовый ящик каждый день? Просто подпишитесь на наши ежедневные информационные бюллетени здесь.
На этой неделе стартап ИИ Элона Маска, XAI, сбросил свою последнюю флагманскую модель ИИ, Grok 3, которая питает приложения компании Grok Chatbot. Они обучали его на колоссальных 200 000 графических процессоров, и это превосходит кучу других лучших моделей, в том числе из OpenAI, в критериях по математике, кодированию и многое другое.
Но давайте поговорим о том, что на самом деле означают эти тесты.
Здесь, в TC, мы сообщаем об этих эталонных цифрах, даже если мы не всегда взволнованы этим, потому что они один из немногих способов, которыми индустрия искусственного интеллекта пытается продемонстрировать, как улучшаются их модели. Дело в том, что эти популярные тесты ИИ часто сосредоточены на неясных вещах и дают счет, которые на самом деле не отражают, насколько хорошо ИИ делает то, о чем люди на самом деле заботятся.
Этан Моллик, профессор Wharton, взял на себя X, чтобы сказать, что существует реальная потребность в лучших тестах и независимых группах для их запуска. Он указал, что компании по искусственному искусству часто сообщают о своих собственных контрольных результатах, что затрудняет их полностью доверять.
«Общественные тесты являются как« мех », так и насыщенными, оставляя много испытаний на ИИ, чтобы быть похожими на обзоры продуктов питания, основываясь на вкусе», - написал Моллик. «Если ИИ имеет решающее значение для работы, нам нужно больше».
Есть много людей, которые пытаются придумать новые тесты для ИИ, но никто не может согласиться с тем, что лучше. Некоторые считают, что эталоны должны сосредоточиться на экономическом воздействии, чтобы быть полезными, в то время как другие считают, что в реальном мире принятие и полезность являются истинными показателями успеха.
Эта дебаты могут продолжаться вечно. Возможно, как предполагает x пользователь Rooon, мы должны просто уделять меньше внимания на новые модели и критерии, если не существует крупного прорыва ИИ. Это может быть лучше для нашего здравомыслия, даже если это означает пропустить какую -то ажиотаж искусственного интеллекта.
Как уже упоминалось, на этой неделе в ИИ делает перерыв. Спасибо, что придерживались нас, читатели, через все взлеты и падения. До следующего раза.
Новости
У Мира Мурати, бывшего технического директора Openai, есть новый стартап под названием Think Machines Lab. Они работают над инструментами, чтобы «заставить ИИ работать на уникальные потребности и цели [людей]».
XAI выпустил Grok 3 и добавил новые функции в приложения Grok для iOS и Интернет.
Meta проводит свою первую конференцию разработчиков, ориентированную на генеративного ИИ этой весной. Это называется Llamacon, после их моделей ламы, и это происходит 29 апреля.
Пол писал о OpenEurollm, проекте около 20 организаций по созданию моделей фонда для «прозрачного ИИ в Европе», который уважает «лингвистическое и культурное разнообразие» всех языков ЕС.
Исследовательская работа недели
Openai говорит, что максимальная модель, сонет Claude 3,5 от Anpropic, набрала только 40,3% на полном эталонном эталоне Swe-Lancer, который показывает, что ИИ еще предстоит пройти долгий путь. Они не тестировали более новые модели, такие как O3-Mini's O3-Mini или Deepseek's R1 из Китая.
Модель недели
Китайская компания по искусству под названием Stepfun выпустила «открытую» модель ИИ под названием Step-Audio, которая может понять и генерировать речь на китайском, английском и японском языке. Пользователи могут даже настроить эмоции и диалект синтетического звука, включая пение.
Stepfun-один из нескольких хорошо финансируемых китайских стартапов AI, выпускающих модели с разрешающими лицензиями. Основанные в 2023 году, они недавно закрыли раунд финансирования на сумму сотен миллионов инвесторов, в том числе китайские государственные частные акционерные компании.
Захватить сумку
Их модель, предварительный просмотр DeepHermes-3, может переключаться между короткими и длинными «цепочками мышления», чтобы сбалансировать точность и вычислительную мощность. В режиме «рассуждения» требуется больше времени, чтобы решить более сложные проблемы и показывает его мыслительный процесс на этом пути.
По сообщениям, Anpropic планирует выпустить аналогичную модель, и Openai говорит, что она находится на их ближайшей дорожной карте.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












