OpenAIとNVIDIA、AIトレーニングネットワークを変革するMRCプロトコルを共同開発
OpenAIは、AMD、Broadcom、Intel、Microsoft、NVIDIAという5社の業界リーダー企業と提携し、「Multipath Reliable Connection(MRC)」プロトコルを立ち上げることを正式に発表しました。Open Compute Project(OCP)を通じて公開されるこのオープンソースプロトコルは、大規模なAIトレーニングで頻繁に発生するネットワークの遅延や障害に対処することを目的としています。

「単一障害点(SPOF)」の排除:3層アーキテクチャから2層アーキテクチャへ
従来のAIモデルトレーニングでは、ネットワークの輻輳や単一リンクでの軽微な障害がドミノ倒しのように連鎖し、数万台のGPUをアイドル状態に追い込み、膨大な計算リソースの浪費を招いていました。
システムの耐障害性を根本的に向上させるため、MRCプロトコルはマルチプレーン・ネットワーク設計を導入しています。これは、単一の800Gb/sインターフェースを複数の小規模なリンクにインテリジェントに分割するものです。この構造的最適化により、システムはわずか2つのスイッチ層で、最大約13万1,000台のGPUからなる大規模クラスターをサポートできるようになります。 従来の2層または4層アーキテクチャと比較して、この変更により、物理コンポーネントの数とエネルギー消費量が大幅に削減されるだけでなく、構築コストも大幅に削減されます。
高度なトラフィック管理:パケット「スプレイ」とマイクロ秒レベルの回復
アーキテクチャの簡素化に加え、MRCはトラフィック分散への斬新なアプローチを導入しています。従来の単一経路伝送から脱却し、適応型パケット・スプレイ技術を採用しています。この手法では、タスクパケットを分割し、数百の並列経路に分散させます。パケットが順不同で到着した場合でも、受信側はそれらを正確に再構築できるため、コアネットワークにおける局所的な輻輳を効果的に防止します。
ネットワーク制御において、MRCは複雑な動的ルーティングプロトコル(BGPなど)をSRv6ソースルーティング技術に置き換えます。これにより、送信者は経路を直接指定でき、スイッチは単純な静的転送のみを実行します。この設計により、ネットワーク障害の復旧時間が数秒からマイクロ秒単位へと劇的に短縮され、リンクの不安定な状況下でも、システムは「シームレスな自己修復」に近い状態を実現します。
実環境での検証:スーパーコンピュータ「スタビライザー」
MRCプロトコルは、すでにNVIDIAのGB200スーパーコンピュータおよびOracleのクラウドインフラストラクチャに導入されています。テストデータによると、アクティブなトレーニングシナリオ中であっても、MRCは突然のリンクジッターやスイッチの再起動などの障害を自動的に迂回してルーティングし、複雑なトレーニングタスクが中断されることなく継続することを確認しています。
関連記事
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
関連特集おすすめ
コメント (0)
0/500
OpenAIは、AMD、Broadcom、Intel、Microsoft、NVIDIAという5社の業界リーダー企業と提携し、「Multipath Reliable Connection(MRC)」プロトコルを立ち上げることを正式に発表しました。Open Compute Project(OCP)を通じて公開されるこのオープンソースプロトコルは、大規模なAIトレーニングで頻繁に発生するネットワークの遅延や障害に対処することを目的としています。

「単一障害点(SPOF)」の排除:3層アーキテクチャから2層アーキテクチャへ
従来のAIモデルトレーニングでは、ネットワークの輻輳や単一リンクでの軽微な障害がドミノ倒しのように連鎖し、数万台のGPUをアイドル状態に追い込み、膨大な計算リソースの浪費を招いていました。
システムの耐障害性を根本的に向上させるため、MRCプロトコルはマルチプレーン・ネットワーク設計を導入しています。これは、単一の800Gb/sインターフェースを複数の小規模なリンクにインテリジェントに分割するものです。この構造的最適化により、システムはわずか2つのスイッチ層で、最大約13万1,000台のGPUからなる大規模クラスターをサポートできるようになります。 従来の2層または4層アーキテクチャと比較して、この変更により、物理コンポーネントの数とエネルギー消費量が大幅に削減されるだけでなく、構築コストも大幅に削減されます。
高度なトラフィック管理:パケット「スプレイ」とマイクロ秒レベルの回復
アーキテクチャの簡素化に加え、MRCはトラフィック分散への斬新なアプローチを導入しています。従来の単一経路伝送から脱却し、適応型パケット・スプレイ技術を採用しています。この手法では、タスクパケットを分割し、数百の並列経路に分散させます。パケットが順不同で到着した場合でも、受信側はそれらを正確に再構築できるため、コアネットワークにおける局所的な輻輳を効果的に防止します。
ネットワーク制御において、MRCは複雑な動的ルーティングプロトコル(BGPなど)をSRv6ソースルーティング技術に置き換えます。これにより、送信者は経路を直接指定でき、スイッチは単純な静的転送のみを実行します。この設計により、ネットワーク障害の復旧時間が数秒からマイクロ秒単位へと劇的に短縮され、リンクの不安定な状況下でも、システムは「シームレスな自己修復」に近い状態を実現します。
実環境での検証:スーパーコンピュータ「スタビライザー」
MRCプロトコルは、すでにNVIDIAのGB200スーパーコンピュータおよびOracleのクラウドインフラストラクチャに導入されています。テストデータによると、アクティブなトレーニングシナリオ中であっても、MRCは突然のリンクジッターやスイッチの再起動などの障害を自動的に迂回してルーティングし、複雑なトレーニングタスクが中断されることなく継続することを確認しています。
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(





家






