AIベンチマーク:今のところそれらを無視する必要がありますか?
テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。
今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。
しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。
TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。
ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。
「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」
AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。
この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。
前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。
ニュース

画像クレジット:Nathan Laine/Bloomberg / Getty Images OpenAIはChatGPTの「検閲解除」を試みています。マックスは、彼らが「知的自由」を受け入れるためにAI開発のアプローチを変更し、難しいまたは物議を醸すトピックにも対応していると書きました。OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。
xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。
Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。
ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。
今週の研究論文

画像クレジット:Jakub Porzycki/NurPhoto / Getty Images OpenAIの研究者たちは、AIのコーディング能力をテストするための新しいAIベンチマーク、SWE-Lancerを開発しました。これは、バグ修正、機能追加、技術的実装の提案など、1,400以上のフリーランスソフトウェアエンジニアリングタスクで構成されています。OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。
今週のモデル
中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。
Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。
その他

画像クレジット:Nous Research AI研究グループ、Nous Researchは、推論と「直感的な言語モデル機能」を組み合わせた初のAIモデルをリリースしたと主張しています。彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。
Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。
関連記事
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
AnthropicのSpaceXリース期間をめぐり、意見が分かれている
今月初め、xAIはAnthropicと大規模なコンピューティング契約を締結し、Colossusクラスターへの独占アクセス権を得るために月額数十億ドルを支払うことを約束した。この契約は双方にとって有益なものとなった。xAIは不可欠な収益を確保し、Anthropicはコンピューティングリソースをめぐる競争において優位に立つことができた。しかし、今朝X上で、イーロン・マスク氏は、この契約に対するSpac
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (61)
0/500
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。
今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。
しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。
TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。
ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。
「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」
AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。
この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。
前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。
ニュース

OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。
xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。
Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。
ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。
今週の研究論文

OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。
今週のモデル
中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。
Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。
その他

彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。
Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
AnthropicのSpaceXリース期間をめぐり、意見が分かれている
今月初め、xAIはAnthropicと大規模なコンピューティング契約を締結し、Colossusクラスターへの独占アクセス権を得るために月額数十億ドルを支払うことを約束した。この契約は双方にとって有益なものとなった。xAIは不可欠な収益を確保し、Anthropicはコンピューティングリソースをめぐる競争において優位に立つことができた。しかし、今朝X上で、イーロン・マスク氏は、この契約に対するSpac
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔





家






