オプション
ニュース
AIベンチマーク:今のところそれらを無視する必要がありますか?

AIベンチマーク:今のところそれらを無視する必要がありますか?

2025年4月10日
240

テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。

今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。

しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。

TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。

ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。

「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」

AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。

この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。

前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。

ニュース

画像クレジット:Nathan Laine/Bloomberg / Getty Images
OpenAIはChatGPTの「検閲解除」を試みています。マックスは、彼らが「知的自由」を受け入れるためにAI開発のアプローチを変更し、難しいまたは物議を醸すトピックにも対応していると書きました。

OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。

xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。

Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。

ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。

今週の研究論文

OpenAI ChatGPTのウェブサイトがラップトップ画面に表示されているイラスト写真。

画像クレジット:Jakub Porzycki/NurPhoto / Getty Images
OpenAIの研究者たちは、AIのコーディング能力をテストするための新しいAIベンチマーク、SWE-Lancerを開発しました。これは、バグ修正、機能追加、技術的実装の提案など、1,400以上のフリーランスソフトウェアエンジニアリングタスクで構成されています。

OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。

今週のモデル

中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。

Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。

その他

Nous Research DeepHermes

画像クレジット:Nous Research
AI研究グループ、Nous Researchは、推論と「直感的な言語モデル機能」を組み合わせた初のAIモデルをリリースしたと主張しています。

彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。

Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。

関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている 水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した 各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
AnthropicのSpaceXリース期間をめぐり、意見が分かれている AnthropicのSpaceXリース期間をめぐり、意見が分かれている 今月初め、xAIはAnthropicと大規模なコンピューティング契約を締結し、Colossusクラスターへの独占アクセス権を得るために月額数十億ドルを支払うことを約束した。この契約は双方にとって有益なものとなった。xAIは不可欠な収益を確保し、Anthropicはコンピューティングリソースをめぐる競争において優位に立つことができた。しかし、今朝X上で、イーロン・マスク氏は、この契約に対するSpac
関連特集おすすめ
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
チャットボット 最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める
最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール
xix.ai
コード 自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する
自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール
xix.ai
コメント (61)
0/500
JonathanDavis
JonathanDavis 2025年8月19日 15:26:53 JST

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 2025年8月19日 14:00:59 JST

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 2025年8月12日 4:00:59 JST

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 2025年8月4日 15:01:00 JST

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 2025年8月1日 11:48:18 JST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 2025年7月28日 10:20:02 JST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR