オプション
ニュース
AIベンチマーク:今のところそれらを無視する必要がありますか?

AIベンチマーク:今のところそれらを無視する必要がありますか?

2025年4月10日
216

テッククランチの定期AIニュースレターへようこそ!少しお休みしますが、ご心配なく。私のコラム、毎日の分析、速報ニュースを含むすべてのAI関連情報は、テッククランチで引き続きご覧いただけます。毎日これらの記事を直接受信したい場合は、こちらでデイリーニュースレターに登録してください。

今週、イーロン・マスクのAIスタートアップ、xAIが最新のフラッグシップAIモデル、Grok 3をリリースしました。これは同社のGrokチャットボットアプリを動かしており、20万個のGPUでトレーニングされ、数学、コーディングなどでOpenAIのモデルを含む他のトップモデルを上回るベンチマーク結果を示しています。

しかし、これらのベンチマークが実際に何を意味するのかについて話しましょう。

TCでは、これらのベンチマーク数値を報告していますが、いつも喜んでいるとは限りません。なぜなら、これらはAI業界がモデルの進化をアピールする数少ない方法の一つだからです。問題は、こうした人気のAIベンチマークがしばしば不明瞭な内容に焦点を当て、AIが人々が本当に重視することの性能をあまり反映しないスコアを出すことです。

ウォートンの教授、エサン・モリックはXで、より優れたテストと独立したグループによる実施の必要性を指摘しました。彼は、AI企業が自社のベンチマーク結果を報告することが多く、完全に信頼するのが難しいと述べました。

「公開ベンチマークは『まあまあ』で飽和状態にあり、AIテストの多くは食品レビューみたいに好みに基づいている」とモリックは書いています。「AIが仕事に重要なら、もっと必要だ。」

AIの新しいベンチマークを考え出そうとしている人々はたくさんいますが、どれが最適か合意が得られていません。一部は経済的影響に焦点を当てるべきだと考え、他の者は実世界での採用と有用性が本当の成功の指標だと信じています。

この議論は永遠に続くかもしれません。XユーザーのRoonが提案するように、大きなAIのブレークスルーがない限り、新しいモデルやベンチマークにあまり注目しない方がいいかもしれません。それが私たちの精神衛生に良いかもしれませんし、AIの誇大広告を見逃すことになっても。

前述の通り、This Week in AIはお休みします。読者の皆様、いつも支えてくれてありがとう。次回まで。

ニュース

画像クレジット:Nathan Laine/Bloomberg / Getty Images
OpenAIはChatGPTの「検閲解除」を試みています。マックスは、彼らが「知的自由」を受け入れるためにAI開発のアプローチを変更し、難しいまたは物議を醸すトピックにも対応していると書きました。

OpenAIの元CTO、ミラ・ムラティは、Thinking Machines Labという新しいスタートアップを立ち上げました。彼らは「人々の独自のニーズと目標にAIを機能させる」ツールに取り組んでいます。

xAIはGrok 3をリリースし、iOSとウェブ向けのGrokアプリに新機能を追加しました。

Metaは今春、生成AIに焦点を当てた初の開発者カンファレンスを開催します。LlamaモデルにちなんでLlamaConと呼ばれ、4月29日に開催されます。

ポールは、約20の組織によるプロジェクト、OpenEuroLLMについて書きました。これは、EUのすべての言語の「言語的および文化的多様性」を尊重する「透明なAI」を構築するための基盤モデルです。

今週の研究論文

OpenAI ChatGPTのウェブサイトがラップトップ画面に表示されているイラスト写真。

画像クレジット:Jakub Porzycki/NurPhoto / Getty Images
OpenAIの研究者たちは、AIのコーディング能力をテストするための新しいAIベンチマーク、SWE-Lancerを開発しました。これは、バグ修正、機能追加、技術的実装の提案など、1,400以上のフリーランスソフトウェアエンジニアリングタスクで構成されています。

OpenAIによると、トップパフォーマンスのモデル、AnthropicのClaude 3.5 Sonnetは、SWE-Lancerベンチマーク全体で40.3%しかスコアを獲得できず、AIにはまだ長い道のりがあることを示しています。彼らはOpenAIのo3-miniや中国のDeepSeekのR1などの新しいモデルはテストしていません。

今週のモデル

中国のAI企業、Stepfunは、中国語、英語、日本語で音声を理解し生成できる「オープン」AIモデル、Step-Audioをリリースしました。ユーザーは合成音声の感情や方言を調整でき、歌声も含まれます。

Stepfunは、寛容なライセンスでモデルをリリースしている資金力のある中国のAIスタートアップの一つです。2023年に設立され、最近、中国国有のプライベートエクイティ企業を含む投資家から数億ドルの資金調達を完了しました。

その他

Nous Research DeepHermes

画像クレジット:Nous Research
AI研究グループ、Nous Researchは、推論と「直感的な言語モデル機能」を組み合わせた初のAIモデルをリリースしたと主張しています。

彼らのモデル、DeepHermes-3 Previewは、正確さと計算能力のバランスを取るために短いものと長い「思考の連鎖」を切り替えることができます。「推論」モードでは、より難しい問題を解くのに時間がかかり、その思考プロセスを示します。

Anthropicは近日中に同様のモデルをリリースする予定で、OpenAIも近日中のロードマップにあると述べています。

関連記事
非営利団体、AIエージェントを活用してチャリティ募金活動を強化 非営利団体、AIエージェントを活用してチャリティ募金活動を強化 大手テック企業がAIの "エージェント "をビジネスの生産性向上剤として推進する一方で、ある非営利団体はAIが社会的利益に貢献する可能性を実証している。オープン・フィランソロピーが支援する慈善研究グループ、セージ・フューチャーは最近、AIモデルが慈善活動の資金調達にどのように協力できるかを示す革新的な実験を行った。この非営利団体は、OpenAIのGPT-4oとo1、AnthropicのClau
トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する OpenAI、Google DeepMind、Anthropic、Metaの研究者は、前例のない団結を示し、競争上の相違を脇に置いて、責任あるAI開発について集団で警告を発した。これらの通常ライバル関係にある組織から40人以上の一流の科学者が、AIの意思決定プロセスの透明性を確保するための窓が急速に狭まっていることを強調する画期的な研究論文を共同執筆した。この共同研究は、現代のAIシステムにおける
ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPT、ファイルアクセスにGoogle DriveとDropboxの統合を追加 ChatGPTが企業向け新機能で生産性を向上OpenAIは、ChatGPTを包括的なビジネス生産性ツールに変える2つの強力な新機能を発表しました:自動会議文書化とシームレスなクラウドストレージ統合です。革命的な録音機能新しく導入された "記録モード "は、自動テープ起こしや分析を可能にします:重要なビジネス会議創造的なブレーンストーミングセッション 個人の思考プロセスこの
コメント (61)
0/200
JonathanDavis
JonathanDavis 2025年8月19日 15:26:53 JST

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 2025年8月19日 14:00:59 JST

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 2025年8月12日 4:00:59 JST

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 2025年8月4日 15:01:00 JST

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 2025年8月1日 11:48:18 JST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 2025年7月28日 10:20:02 JST

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

トップに戻ります
OR