オプション
ニュース
AIベンチマーク:今のところそれらを無視する必要がありますか?

AIベンチマーク:今のところそれらを無視する必要がありますか?

2025年4月10日
115

TechCrunchの通常のAIニュースレターへようこそ!私たちは少し休憩していますが、心配する必要はありません。私のコラム、毎日の分析、ニュース速報を含むすべてのAIカバレッジをここTechCrunchで取得することができます。これらのストーリーを毎日あなたの受信トレイにまっすぐにしたいですか?ここで毎日のニュースレターにサインアップしてください。

今週、Elon MuskのAIスタートアップであるXaiは、最新のフラッグシップAIモデルであるGrok 3を削除しました。彼らはそれをなんと200,000 GPUで訓練しました、そして、それは、Openaiの一部を含む、数学、コーディングなどのベンチマークを含む他の多くのトップモデルを上回っています。

しかし、これらのベンチマークが実際に何を意味するかについて話しましょう。

ここTCでは、AI業界がモデルの改善を披露しようとする数少ない方法の1つであるため、これらのベンチマーク数については、これらのベンチマーク数について報告しています。問題は、これらの人気のあるAIベンチマークがあいまいなものに焦点を当て、AIが人々が実際に気にかけていることを実際に反映していないスコアを与えることが多いことです。

ウォートンの教授であるイーサン・モリックは、より良いテストと独立したグループを実行するための本当の必要性があると言ってXに連れて行きました。彼は、AI企業がしばしば独自のベンチマーク結果を報告しているため、完全に信頼することが難しくなっていると指摘しました。

「パブリックベンチマークは「Meh」と飽和状態の両方であり、味に基づいて、多くのAIテストをフードレビューのようにするために残ります」とMollickは書いています。 「AIが機能するために重要な場合、もっと必要です。」

AIの新しいベンチマークを考え出そうとしている人はたくさんいますが、何が最善かについて同意することはできません。ベンチマークは経済的影響に焦点を当てるべきであると考える人もいれば、現実世界の採用と有用性が成功の真の尺度であると考えている人もいます。

この議論は永遠に続く可能性があります。たぶん、Xユーザールーンが示唆するように、主要なAIのブレークスルーがない限り、新しいモデルとベンチマークにあまり注意を払う必要があります。たとえAIの誇大広告を逃すことを意味する場合でも、それは私たちの正気の方が良いかもしれません。

前述のように、今週はAIの休憩を取っています。すべての浮き沈みを通して、私たち、読者、読者に固執してくれてありがとう。次回まで。

ニュース

画像クレジット:ネイサンレイン /ブルームバーグ /ゲッティイメージズ
OpenaiはChatGptを「非センサー」しようとしています。マックスは、「知的自由」を受け入れるために、AI開発へのアプローチをどのように変えているかについて書きました。

Openaiの元CTOであるMira Muratiには、Thinking Machines Labと呼ばれる新しいスタートアップがあります。彼らは、「[人々の]ユニークなニーズと目標のためにAIを機能させる」ためのツールに取り組んでいます。

XaiはGrok 3をリリースし、iOSとWeb用のGrokアプリに新機能を追加しました。

メタは、この春に生成AIに焦点を当てた最初の開発者会議を開催しています。それは彼らのラマモデルにちなんでラマコンと呼ばれ、4月29日に起こっています。

ポールは、すべてのEU言語の「言語的および文化的多様性」を尊重する「ヨーロッパの透明なAI」の基礎モデルを構築するために、約20の組織によるプロジェクトであるOpeneurollmについて書きました。

今週の研究論文

ラップトップ画面に表示されているOpenai ChatGpt Webサイトは、このイラストの写真に表示されています。

画像クレジット:Jakub Porzycki / Nurphoto / Getty Images
Openaiの研究者は、AIがどれだけうまくコーディングできるかをテストするために、SWE-Lancerと呼ばれる新しいAIベンチマークを考え出しました。バグの修正や機能の追加から技術的な実装の提案まで、1,400を超えるフリーランスソフトウェアエンジニアリングタスクで構成されています。

Openaiによると、人類のトップパフォーマンスモデルであるClaude 3.5 Sonnetは、AIがまだ長い道のりがあることを示している完全なSWEランサーベンチマークで40.3%しか獲得していません。彼らは、中国からのOpenaiのO3-MiniやDeepseekのR1などの新しいモデルをテストしませんでした。

今週のモデル

Stepfunと呼ばれる中国のAI会社は、Step-Audioという名前の「オープン」AIモデルをリリースしました。ユーザーは、歌など、合成オーディオの感情や方言を調整することもできます。

Stepfunは、許可されたライセンスを使用してモデルをリリースしているいくつかの資金提供された中国のAIスタートアップの1つです。 2023年に設立された彼らは最近、中国の国営のプライベートエクイティ会社を含む投資家から数億相当の資金調達ラウンドを閉鎖しました。

グラブバッグ

Nous Research Deephermes

画像クレジット:Nous Research
AIの研究グループであるNous Researchは、推論と「直感的な言語モデル機能」を組み合わせた最初のAIモデルの1つをリリースしたと主張しています。

彼らのモデルであるDeephermes-3プレビューは、短い「思考の鎖」を短縮して、精度と計算能力のバランスをとることができます。 「推論」モードでは、より困難な問題を解決するのに時間がかかり、その途中でその思考プロセスを示しています。

人類はすぐに同様のモデルをリリースすることを計画していると伝えられており、Openaiはそれが彼らの短期的なロードマップにあると言います。

関連記事
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
コメント (55)
0/200
FredAnderson
FredAnderson 2025年4月10日 0:00:00 GMT

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 2025年4月11日 0:00:00 GMT

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 2025年4月10日 0:00:00 GMT

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 2025年4月11日 0:00:00 GMT

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 2025年4月11日 0:00:00 GMT

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 2025年4月11日 0:00:00 GMT

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

トップに戻ります
OR