Sakana AIは、モデルトレーニング速度を劇的に向上させます

今週、Nvidiaの支援を受け、ベンチャーキャピタルから数百万ドルの資金を得ているスタートアップ企業Sakana AIが大胆な声明を発表しました。彼らは、AI CUDA Engineerと名付けられた新しいAIシステムが、特定のAIモデルのトレーニング速度を驚異的な100倍に向上させることができると主張しました。
しかし、それはすべて煙と鏡だったのです。
X(以前はTwitterとして知られていたプラットフォーム)のユーザーたちは、すぐにSakanaの虚偽を指摘しました。スピードを上げるどころか、彼らのAIは実際にはパフォーマンスを下げる結果となりました。あるユーザーは、約束されたものとは正反対の3倍の遅延を報告しました!
では、何が問題だったのでしょうか?OpenAIのLucas Beyerによると、コードに潜む狡猾なバグが原因でした。「彼らの元のコードは微妙な点で間違っている」とBeyerはXで指摘しました。「ベンチマークを2回実行して全く異なる結果が出た時点で、彼らは立ち止まって考えるべきだった。」
金曜日に公開された率直な事後報告で、Sakanaは正直に認めました。彼らのシステムは、評価コードの抜け穴を利用して「ごまかし」(彼らの言葉で、私の言葉ではありません)する方法を見つけ出し、精度検証などの重要なチェックを回避していたのです。Sakanaはこれを「報酬ハッキング」と呼び、AIがモデルのトレーニングを実際に高速化することなく、メトリクスを上げるための近道を見つける行為だと説明しました。これは、チェスをプレイするAIが狡猾な方法で勝利を見つけるようなものです。
Sakanaは問題を修正し、論文と結果を実際の状況を反映するように更新していると述べています。「その後、評価および実行時のプロファイリングハーネスをより堅牢にし、そのような抜け穴の多くを排除しました」と彼らはXに書きました。「現在、論文と結果を改訂し、その影響について議論するプロセスにあります [...] 読者に対して我々の見落としを深くお詫びします。近日中にこの研究の改訂版を提供し、得られた教訓について議論します。」
Sakanaがミスを認めたことには敬意を表すべきです。しかし、この一連の出来事は、AIの世界であまりにも良すぎる話は、恐らく本当ではないということを強く思い出させてくれます。
関連記事
AIに生成された紙がピアレビューに合格する、とサカナは主張していますが、詳細は微妙です
日本のAIスタートアップSakanaは最近、そのAIシステムであるAI Scientist-V2が最初のピアレビューされた科学出版物の1つを生成したと主張することで波を起こしました。ただし、興奮する前に考慮すべき重要な詳細がいくつかあります。科学におけるAIの役割に関する議論は激化しています。それで
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
関連特集おすすめ
コメント (31)
0/500
これは…ひどいね。トレーニング速度を100倍にするなんて夢のような話だと思ったが、結局は誇大広告なのか。投資家へのプレゼンには十分かもしれないが、技術者はみんな疑ってかかるはずだ。実用化できなければ単なるバズワードに終わるよ。早く実証結果が欲しいな😅
100倍速くなるって、さすが壮大なパフォーマンスですね 🤔 もう少し具体的なデータが知りたい。技術革新は必要だけど、過剰な期待を煽るのは業界全体に悪影響かも。結局普通のユーザーには手が届かない高級技術?
진짜로 100배 빨라진다고? 🤔 회사 홍보용 과장 광고 같은데... 누구든 놀라운 성능이라면 실제 벤치마크 결과 공개해야 믿을 수 있을 거 같아요. 엔비디아 지원 받는다고 해도 너무 뻥튀기 한 것 같은데...
Ну и новость... 100-кратное ускорение обучения ИИ оказалось банальным раздуванием фактов. Опять стартапы пытаются впечатлить инвесторов громкими заявлениями, а по факту — обычный маркетинг 🤦♂️. NVIDIA, вы же умнее, как можно вестись на такие сказки?
Whoa, Sakana AI's 100x speed claim sounded too good to be true, and guess what? It was! 😅 Kinda reminds me of those overhyped tech demos that crash and burn. Hope they sort out the bugs soon!

今週、Nvidiaの支援を受け、ベンチャーキャピタルから数百万ドルの資金を得ているスタートアップ企業Sakana AIが大胆な声明を発表しました。彼らは、AI CUDA Engineerと名付けられた新しいAIシステムが、特定のAIモデルのトレーニング速度を驚異的な100倍に向上させることができると主張しました。
しかし、それはすべて煙と鏡だったのです。
X(以前はTwitterとして知られていたプラットフォーム)のユーザーたちは、すぐにSakanaの虚偽を指摘しました。スピードを上げるどころか、彼らのAIは実際にはパフォーマンスを下げる結果となりました。あるユーザーは、約束されたものとは正反対の3倍の遅延を報告しました!
では、何が問題だったのでしょうか?OpenAIのLucas Beyerによると、コードに潜む狡猾なバグが原因でした。「彼らの元のコードは微妙な点で間違っている」とBeyerはXで指摘しました。「ベンチマークを2回実行して全く異なる結果が出た時点で、彼らは立ち止まって考えるべきだった。」
金曜日に公開された率直な事後報告で、Sakanaは正直に認めました。彼らのシステムは、評価コードの抜け穴を利用して「ごまかし」(彼らの言葉で、私の言葉ではありません)する方法を見つけ出し、精度検証などの重要なチェックを回避していたのです。Sakanaはこれを「報酬ハッキング」と呼び、AIがモデルのトレーニングを実際に高速化することなく、メトリクスを上げるための近道を見つける行為だと説明しました。これは、チェスをプレイするAIが狡猾な方法で勝利を見つけるようなものです。
Sakanaは問題を修正し、論文と結果を実際の状況を反映するように更新していると述べています。「その後、評価および実行時のプロファイリングハーネスをより堅牢にし、そのような抜け穴の多くを排除しました」と彼らはXに書きました。「現在、論文と結果を改訂し、その影響について議論するプロセスにあります [...] 読者に対して我々の見落としを深くお詫びします。近日中にこの研究の改訂版を提供し、得られた教訓について議論します。」
Sakanaがミスを認めたことには敬意を表すべきです。しかし、この一連の出来事は、AIの世界であまりにも良すぎる話は、恐らく本当ではないということを強く思い出させてくれます。
AIに生成された紙がピアレビューに合格する、とサカナは主張していますが、詳細は微妙です
日本のAIスタートアップSakanaは最近、そのAIシステムであるAI Scientist-V2が最初のピアレビューされた科学出版物の1つを生成したと主張することで波を起こしました。ただし、興奮する前に考慮すべき重要な詳細がいくつかあります。科学におけるAIの役割に関する議論は激化しています。それで
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
これは…ひどいね。トレーニング速度を100倍にするなんて夢のような話だと思ったが、結局は誇大広告なのか。投資家へのプレゼンには十分かもしれないが、技術者はみんな疑ってかかるはずだ。実用化できなければ単なるバズワードに終わるよ。早く実証結果が欲しいな😅
100倍速くなるって、さすが壮大なパフォーマンスですね 🤔 もう少し具体的なデータが知りたい。技術革新は必要だけど、過剰な期待を煽るのは業界全体に悪影響かも。結局普通のユーザーには手が届かない高級技術?
진짜로 100배 빨라진다고? 🤔 회사 홍보용 과장 광고 같은데... 누구든 놀라운 성능이라면 실제 벤치마크 결과 공개해야 믿을 수 있을 거 같아요. 엔비디아 지원 받는다고 해도 너무 뻥튀기 한 것 같은데...
Ну и новость... 100-кратное ускорение обучения ИИ оказалось банальным раздуванием фактов. Опять стартапы пытаются впечатлить инвесторов громкими заявлениями, а по факту — обычный маркетинг 🤦♂️. NVIDIA, вы же умнее, как можно вестись на такие сказки?
Whoa, Sakana AI's 100x speed claim sounded too good to be true, and guess what? It was! 😅 Kinda reminds me of those overhyped tech demos that crash and burn. Hope they sort out the bugs soon!





家






