AIベンチマーク:今のところそれらを無視する必要がありますか?
テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。
今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。
しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。
TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。
ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。
「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」
AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。
この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。
前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。
ニュース

画像クレジット:Nathan Laine/Bloomberg / Getty Images OpenAIはChatGPTの「検閲解除」を試みています。マックスは、彼らが「知的自由」を受け入れるためにAI開発のアプローチを変更し、難しいまたは物議を醸すトピックにも対応していると書きました。OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。
xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。
Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。
ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。
今週の研究論文

画像クレジット:Jakub Porzycki/NurPhoto / Getty Images OpenAIの研究者たちは、AIのコーディング能力をテストするための新しいAIベンチマーク、SWE-Lancerを開発しました。これは、バグ修正、機能追加、技術的実装の提案など、1,400以上のフリーランスソフトウェアエンジニアリングタスクで構成されています。OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。
今週のモデル
中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。
Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。
その他

画像クレジット:Nous Research AI研究グループ、Nous Researchは、推論と「直感的な言語モデル機能」を組み合わせた初のAIモデルをリリースしたと主張しています。彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。
Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。
関連記事
元OpenAIエンジニアが企業文化と急速な成長について語る
3週間前、OpenAIの主要製品に貢献したエンジニア、Calvin French-Owenが退社。彼は最近、OpenAIでの1年間を詳細に綴った魅力的なブログを公開し、CursorやAnthropicのClaude Codeに匹敵するコーディングエージェントCodexの開発に注力したことを明かした。French-Owenは、退社の理由が内部の対立ではなく、スタートアップ生活への回帰願望だったと説明
GoogleがOpenAIと競合するエンタープライズ市場向けに生産準備が整ったGemini 2.5 AIモデルを公開
Googleは月曜日、AI戦略を強化し、エンタープライズ向けに高度なGemini 2.5モデルを発表し、価格と性能で競争力のあるコスト効率の高いバリアントを導入しました。Alphabet傘下の同社は、主力AIモデルであるGemini 2.5 ProとGemini 2.5 Flashをテスト段階から完全な利用可能状態に移行し、重要なビジネスアプリケーションへの準備が整っていることを示しました。さらに
MetaがAI人材に高額報酬を提供、1億ドルのサインオンボーナスは否定
Metaは新しいスーパーインテリジェンスラボにAI研究者を引き付けるため、数百万ドル規模の報酬パッケージを提供しています。しかし、採用された研究者や漏洩した内部会議の発言によると、1億ドルの「サインオンボーナス」という主張は本当ではありません。The Vergeが木曜日に報じた漏洩した全社ミーティングでは、Metaの幹部がOpenAIのCEOサム・アルトマンが主張した、Metaがトップ研究者に提供
コメント (58)
0/200
BillyLewis
2025年8月4日 15:01:00 JST
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
2025年8月1日 11:48:18 JST
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
2025年7月28日 10:20:02 JST
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
2025年4月26日 14:57:18 JST
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
2025年4月26日 4:19:34 JST
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
2025年4月23日 0:01:53 JST
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。
今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。
しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。
TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。
ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。
「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」
AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。
この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。
前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。
ニュース
OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。
xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。
Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。
ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。
今週の研究論文
OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。
今週のモデル
中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。
Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。
その他
彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。
Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












