AIベンチマーク:今のところそれらを無視する必要がありますか?
2025年4月10日
MarkWilson
79
TechCrunchの通常のAIニュースレターへようこそ!私たちは少し休憩していますが、心配する必要はありません。私のコラム、毎日の分析、ニュース速報を含むすべてのAIカバレッジをここTechCrunchで取得することができます。これらのストーリーを毎日あなたの受信トレイにまっすぐにしたいですか?ここで毎日のニュースレターにサインアップしてください。
今週、Elon MuskのAIスタートアップであるXaiは、最新のフラッグシップAIモデルであるGrok 3を削除しました。彼らはそれをなんと200,000 GPUで訓練しました、そして、それは、Openaiの一部を含む、数学、コーディングなどのベンチマークを含む他の多くのトップモデルを上回っています。
しかし、これらのベンチマークが実際に何を意味するかについて話しましょう。
ここTCでは、AI業界がモデルの改善を披露しようとする数少ない方法の1つであるため、これらのベンチマーク数については、これらのベンチマーク数について報告しています。問題は、これらの人気のあるAIベンチマークがあいまいなものに焦点を当て、AIが人々が実際に気にかけていることを実際に反映していないスコアを与えることが多いことです。
ウォートンの教授であるイーサン・モリックは、より良いテストと独立したグループを実行するための本当の必要性があると言ってXに連れて行きました。彼は、AI企業がしばしば独自のベンチマーク結果を報告しているため、完全に信頼することが難しくなっていると指摘しました。
「パブリックベンチマークは「Meh」と飽和状態の両方であり、味に基づいて、多くのAIテストをフードレビューのようにするために残ります」とMollickは書いています。 「AIが機能するために重要な場合、もっと必要です。」
AIの新しいベンチマークを考え出そうとしている人はたくさんいますが、何が最善かについて同意することはできません。ベンチマークは経済的影響に焦点を当てるべきであると考える人もいれば、現実世界の採用と有用性が成功の真の尺度であると考えている人もいます。
この議論は永遠に続く可能性があります。たぶん、Xユーザールーンが示唆するように、主要なAIのブレークスルーがない限り、新しいモデルとベンチマークにあまり注意を払う必要があります。たとえAIの誇大広告を逃すことを意味する場合でも、それは私たちの正気の方が良いかもしれません。
前述のように、今週はAIの休憩を取っています。すべての浮き沈みを通して、私たち、読者、読者に固執してくれてありがとう。次回まで。
ニュース

画像クレジット:ネイサンレイン /ブルームバーグ /ゲッティイメージズ OpenaiはChatGptを「非センサー」しようとしています。マックスは、「知的自由」を受け入れるために、AI開発へのアプローチをどのように変えているかについて書きました。
Openaiの元CTOであるMira Muratiには、Thinking Machines Labと呼ばれる新しいスタートアップがあります。彼らは、「[人々の]ユニークなニーズと目標のためにAIを機能させる」ためのツールに取り組んでいます。
XaiはGrok 3をリリースし、iOSとWeb用のGrokアプリに新機能を追加しました。
メタは、この春に生成AIに焦点を当てた最初の開発者会議を開催しています。それは彼らのラマモデルにちなんでラマコンと呼ばれ、4月29日に起こっています。
ポールは、すべてのEU言語の「言語的および文化的多様性」を尊重する「ヨーロッパの透明なAI」の基礎モデルを構築するために、約20の組織によるプロジェクトであるOpeneurollmについて書きました。
今週の研究論文

画像クレジット:Jakub Porzycki / Nurphoto / Getty Images Openaiの研究者は、AIがどれだけうまくコーディングできるかをテストするために、SWE-Lancerと呼ばれる新しいAIベンチマークを考え出しました。バグの修正や機能の追加から技術的な実装の提案まで、1,400を超えるフリーランスソフトウェアエンジニアリングタスクで構成されています。
Openaiによると、人類のトップパフォーマンスモデルであるClaude 3.5 Sonnetは、AIがまだ長い道のりがあることを示している完全なSWEランサーベンチマークで40.3%しか獲得していません。彼らは、中国からのOpenaiのO3-MiniやDeepseekのR1などの新しいモデルをテストしませんでした。
今週のモデル
Stepfunと呼ばれる中国のAI会社は、Step-Audioという名前の「オープン」AIモデルをリリースしました。ユーザーは、歌など、合成オーディオの感情や方言を調整することもできます。
Stepfunは、許可されたライセンスを使用してモデルをリリースしているいくつかの資金提供された中国のAIスタートアップの1つです。 2023年に設立された彼らは最近、中国の国営のプライベートエクイティ会社を含む投資家から数億相当の資金調達ラウンドを閉鎖しました。
グラブバッグ

画像クレジット:Nous Research AIの研究グループであるNous Researchは、推論と「直感的な言語モデル機能」を組み合わせた最初のAIモデルの1つをリリースしたと主張しています。
彼らのモデルであるDeephermes-3プレビューは、短い「思考の鎖」を短縮して、精度と計算能力のバランスをとることができます。 「推論」モードでは、より困難な問題を解決するのに時間がかかり、その途中でその思考プロセスを示しています。
人類はすぐに同様のモデルをリリースすることを計画していると伝えられており、Openaiはそれが彼らの短期的なロードマップにあると言います。
関連記事
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
コメント (55)
0/200
FredAnderson
2025年4月10日 13:30:25 GMT
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
2025年4月11日 3:44:49 GMT
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
2025年4月10日 13:20:05 GMT
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
2025年4月10日 20:29:13 GMT
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
2025年4月11日 6:46:34 GMT
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
2025年4月11日 12:48:46 GMT
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0






TechCrunchの通常のAIニュースレターへようこそ!私たちは少し休憩していますが、心配する必要はありません。私のコラム、毎日の分析、ニュース速報を含むすべてのAIカバレッジをここTechCrunchで取得することができます。これらのストーリーを毎日あなたの受信トレイにまっすぐにしたいですか?ここで毎日のニュースレターにサインアップしてください。
今週、Elon MuskのAIスタートアップであるXaiは、最新のフラッグシップAIモデルであるGrok 3を削除しました。彼らはそれをなんと200,000 GPUで訓練しました、そして、それは、Openaiの一部を含む、数学、コーディングなどのベンチマークを含む他の多くのトップモデルを上回っています。
しかし、これらのベンチマークが実際に何を意味するかについて話しましょう。
ここTCでは、AI業界がモデルの改善を披露しようとする数少ない方法の1つであるため、これらのベンチマーク数については、これらのベンチマーク数について報告しています。問題は、これらの人気のあるAIベンチマークがあいまいなものに焦点を当て、AIが人々が実際に気にかけていることを実際に反映していないスコアを与えることが多いことです。
ウォートンの教授であるイーサン・モリックは、より良いテストと独立したグループを実行するための本当の必要性があると言ってXに連れて行きました。彼は、AI企業がしばしば独自のベンチマーク結果を報告しているため、完全に信頼することが難しくなっていると指摘しました。
「パブリックベンチマークは「Meh」と飽和状態の両方であり、味に基づいて、多くのAIテストをフードレビューのようにするために残ります」とMollickは書いています。 「AIが機能するために重要な場合、もっと必要です。」
AIの新しいベンチマークを考え出そうとしている人はたくさんいますが、何が最善かについて同意することはできません。ベンチマークは経済的影響に焦点を当てるべきであると考える人もいれば、現実世界の採用と有用性が成功の真の尺度であると考えている人もいます。
この議論は永遠に続く可能性があります。たぶん、Xユーザールーンが示唆するように、主要なAIのブレークスルーがない限り、新しいモデルとベンチマークにあまり注意を払う必要があります。たとえAIの誇大広告を逃すことを意味する場合でも、それは私たちの正気の方が良いかもしれません。
前述のように、今週はAIの休憩を取っています。すべての浮き沈みを通して、私たち、読者、読者に固執してくれてありがとう。次回まで。
ニュース
Openaiの元CTOであるMira Muratiには、Thinking Machines Labと呼ばれる新しいスタートアップがあります。彼らは、「[人々の]ユニークなニーズと目標のためにAIを機能させる」ためのツールに取り組んでいます。
XaiはGrok 3をリリースし、iOSとWeb用のGrokアプリに新機能を追加しました。
メタは、この春に生成AIに焦点を当てた最初の開発者会議を開催しています。それは彼らのラマモデルにちなんでラマコンと呼ばれ、4月29日に起こっています。
ポールは、すべてのEU言語の「言語的および文化的多様性」を尊重する「ヨーロッパの透明なAI」の基礎モデルを構築するために、約20の組織によるプロジェクトであるOpeneurollmについて書きました。
今週の研究論文
Openaiによると、人類のトップパフォーマンスモデルであるClaude 3.5 Sonnetは、AIがまだ長い道のりがあることを示している完全なSWEランサーベンチマークで40.3%しか獲得していません。彼らは、中国からのOpenaiのO3-MiniやDeepseekのR1などの新しいモデルをテストしませんでした。
今週のモデル
Stepfunと呼ばれる中国のAI会社は、Step-Audioという名前の「オープン」AIモデルをリリースしました。ユーザーは、歌など、合成オーディオの感情や方言を調整することもできます。
Stepfunは、許可されたライセンスを使用してモデルをリリースしているいくつかの資金提供された中国のAIスタートアップの1つです。 2023年に設立された彼らは最近、中国の国営のプライベートエクイティ会社を含む投資家から数億相当の資金調達ラウンドを閉鎖しました。
グラブバッグ
彼らのモデルであるDeephermes-3プレビューは、短い「思考の鎖」を短縮して、精度と計算能力のバランスをとることができます。 「推論」モードでは、より困難な問題を解決するのに時間がかかり、その途中でその思考プロセスを示しています。
人類はすぐに同様のモデルをリリースすることを計画していると伝えられており、Openaiはそれが彼らの短期的なロードマップにあると言います。




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












