オプション
ニュース
バイトダンスがSeed-Thinking-v1.5 AIモデルを公開し、推論能力を向上

バイトダンスがSeed-Thinking-v1.5 AIモデルを公開し、推論能力を向上

2025年8月23日
0

高度な推論AIの競争は、2024年9月にOpenAIのo1モデルで始まり、2025年1月のDeepSeekのR1ローンチで勢いを増しました。

主要なAI開発企業は現在、より高速でコスト効率の高い推論AIモデルを開発するために競争しており、チェーン・オブ・ソートプロセスを通じて正確でよく考え抜かれた応答を提供し、回答前に正確性を確保しています。

TikTokの親会社であるバイトダンスは、技術論文で概要が示された新しい大規模言語モデル(LLM)であるSeed-Thinking-v1.5を発表し、STEMおよび一般的な領域での推論を強化することを目指しています。

このモデルはまだ利用可能ではなく、ライセンスが独自仕様、オープンソース、またはハイブリッドのいずれであるかは未公開です。ただし、論文にはリリース前に探る価値のある重要な洞察が含まれています。

MetaのLlama 4やMistralのMixtralに続き、Seed-Thinking-v1.5はMixture-of-Experts(MoE)アーキテクチャを採用しています。

このアプローチは、複数の専門モデルを1つに統合し、それぞれが異なる領域に焦点を当てることで効率を高めます。

Seed-Thinking-v1.5は、2000億のパラメータのうち200億のみを一度に使用し、パフォーマンスを最適化しています。

バイトダンスのGitHubで公開された論文は、モデルの構造化された推論と意図的な応答生成への焦点を強調しています。

これはDeepSeek R1を超え、GoogleのGemini 2.5 ProやOpenAIのo3-mini-highと第三者ベンチマークで競合し、ARC-AGIベンチマークではそれらを上回り、OpenAIの基準に従って経済的に価値のあるタスクで人間のパフォーマンスを超える、人工知能の進歩の重要な指標です。

コンパクトでありながら強力な代替として位置付けられたSeed-Thinking-v1.5は、革新的な強化学習、厳選されたトレーニングデータ、先進的なAIインフラストラクチャを通じて優れたベンチマーク結果を提供します。

ベンチマーク性能とコアの強み

Seed-Thinking-v1.5は困難なタスクで優れており、AIME 2024で86.7%、Codeforcesでpass@8で55.0%、GPQA科学ベンチマークで77.3%を記録し、OpenAIのo3-mini-highやGoogleのGemini 2.5 Proと推論指標でほぼ同等またはそれらを上回っています。

非推論タスクでは、DeepSeek R1に対して8.0%高い人間の好み勝率を達成し、論理や数学を超えた汎用性を示しています。

ベンチマークの飽和に対抗するため、バイトダンスは記憶に頼らないより厳しい数学ベンチマークであるBeyondAIMEを作成し、モデル性能をより良く評価します。このベンチマークは、Codeforcesセットと共に、将来の研究を支援するために公開されます。

トレーニングデータのアプローチ

Seed-Thinking-v1.5の開発ではデータ品質が重要でした。教師あり微調整のために、40万のサンプルが厳選されました:30万の検証可能なSTEM、論理、コーディングタスクと、10万のクリエイティブライティングのような検証不可能なタスクです。

強化学習のために、データは以下に分けられました:

  • 検証可能な問題:エリート競技から慎重に選ばれた10万のSTEM質問と論理パズル、専門家によって検証されました。
  • 検証不可能なタスク:オープンエンドのプロンプトに対する人間の好みデータセット、ペアワイズ報酬モデルで評価されました。

STEMデータの80%以上は高度な数学に焦点を当て、Sudokuや24ポイントパズルなどの論理タスクはモデル進捗に合わせてスケールされました。

強化学習の革新

Seed-Thinking-v1.5は、カスタムのアクター-クリティック(VAPO)およびポリシー勾配(DAPO)フレームワークを使用して、長いチェーン・オブ・ソートシナリオでの問題に対処し、強化学習を安定化します。

2つの報酬モデルがRL監督を強化します:

  • Seed-Verifier:生成された回答と参照回答の数学的同等性を保証するルールベースのLLM。
  • Seed-Thinking-Verifier:報酬操作に耐性のある一貫した評価のための推論ベースのジャッジ。

このデュアルシステムは、単純および複雑なタスクでの正確な評価をサポートします。

スケーラブルなインフラストラクチャ設計

バイトダンスのHybridFlowフレームワークは、Rayクラスタによって支えられ、GPUのアイドル時間を最小化する共同配置されたトレーニングと推論で効率的な大規模トレーニングをサポートします。

ストリーミングロールアウトシステム(SRS)は、モデル進化とランタイムを分離し、部分生成の非同期管理により反復を最大3倍高速化します。

追加の技術には以下が含まれます:

  • メモリ効率のための混合精度(FP8)
  • MoE最適化のためのエキスパート並列処理とカーネル自動チューニング
  • 堅牢なチェックポインティングのためのByteCheckpoint
  • 最適化された並列処理とメモリ設定のためのAutoTuner

人間中心の評価と応用

クリエイティブライティング、人文科学、一般会話での人間のテストでは、Seed-Thinking-v1.5がDeepSeek R1を上回り、現実世界での関連性を証明しました。

チームは、検証可能なタスクでのトレーニングが、厳格な数学的ワークフローに駆動されて、クリエイティブな領域への一般化を強化したと述べています。

技術チームと企業への影響

LLMライフサイクルを監督する技術リーダーにとって、Seed-Thinking-v1.5は高度な推論を企業AIシステムに統合するモデルを提供します。

検証可能なデータセットと多段階の強化学習によるモジュラートレーニングは、LLM開発を正確に制御しながらスケールするチームに適しています。

Seed-VerifierとSeed-Thinking-Verifierは、顧客向けまたは規制された環境で重要な信頼性の高い報酬モデリングを強化します。

タイトなスケジュールのチームにとって、VAPOと動的サンプリングは反復サイクルを短縮し、タスク固有の微調整を効率化します。

ハイブリッドインフラストラクチャ(SRSやFP8最適化を含む)は、トレーニングスループットとハードウェア効率を高め、クラウドおよびオンプレミスシステムに最適です。

モデルの適応型報酬フィードバックは、多様なデータパイプラインの管理における課題に対処し、ドメイン間で一貫性を確保します。

データエンジニアにとって、厳格なデータフィルタリングと専門家検証への焦点は、モデル性能向上における高品質データセットの価値を強調します。

今後の展望

バイトダンスのSeed LLM Systemsチームによって開発され、Yonghui Wuが率い、Haibin Linが公開代表を務めるSeed-Thinking-v1.5は、Doubao 1.5 Proなどの取り組みを基盤とし、共有されたRLHFとデータキュレーション技術を使用しています。

チームは、トレーニング効率と検証不可能なタスクの報酬モデリングに焦点を当て、強化学習を改良することを目指しています。BeyondAIMEのようなベンチマークの公開は、推論に焦点を当てたAI研究のさらなる進展を促進します。

関連記事
GoogleがAIエージェントの相互運用性を強化するA2Aプロトコルを発表 GoogleがAIエージェントの相互運用性を強化するA2Aプロトコルを発表 AIエージェントは、サプライチェーン管理や機器調達などの複雑で反復的なタスクに取り組んでいます。組織がさまざまなベンダーやフレームワークからエージェントを採用するにつれて、これらのエージェントはしばしば孤立し、効果的に連携できなくなります。相互運用性の課題が続き、エージェントが時には矛盾する推奨事項を提供することがあります。AIワークフローの標準化は依然として難しく、エージェントの統合にはミドルウ
QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 QodoがGoogle Cloudと提携し、開発者向け無料AIコードレビューを提供 Qodo、イスラエル拠点のAIコーディングスタートアップは、コード品質に焦点を当て、Google Cloudと提携し、AI生成ソフトウェアの完全性を強化。企業がコーディングにAIをますます活用する中、堅牢な監視と品質保証ツールの需要が増加。QodoのCEOイタマール・フリードマンは、AI生成コードが現代の開発の中心であると指摘。「AIがすべてのコードを書く未来を想像してください。人間がすべてをレビ
SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 SalesforceがSlackでAIデジタルチームメイトを公開、Microsoft Copilotに対抗 Salesforceは新しい職場AI戦略を発表し、月曜日にSlackの会話に統合された専門の「デジタルチームメイト」を導入した。新ツール「SlackのAgentforce」は、企業が職場チャットを検索し、会社データにアクセスし、従業員が日常的に働くメッセージングプラットフォーム内でアクションを実行するタスク特化型AIエージェントを作成・展開できる。「専門の従業員が協力して問題を解決するように、クラ
コメント (0)
0/200
トップに戻ります
OR