Lar
OpenAI e NVIDIA desenvolvem o protocolo MRC para transformar as redes de treinamento de IA
A OpenAI anunciou oficialmente uma colaboração com cinco líderes do setor — AMD, Broadcom, Intel, Microsoft e NVIDIA — para lançar o protocolo Multipath Reliable Connection (MRC). Esse protocolo de código aberto, lançado por meio do Open Compute Project (OCP), foi projetado para lidar com a latência de rede e as falhas comumente encontradas no treinamento de IA em grande escala.

Eliminando o “ponto único de falha”: da arquitetura de três camadas para a de duas camadas
No treinamento tradicional de modelos de IA, o congestionamento da rede ou uma pequena falha em um único link pode causar um efeito dominó, forçando dezenas de milhares de GPUs a ficarem ociosas e levando a um desperdício computacional significativo.
Para melhorar fundamentalmente a resiliência do sistema, o protocolo MRC introduz um projeto de rede multiplano. Ele divide de forma inteligente uma única interface de 800 Gb/s em vários links menores. Essa otimização estrutural permite que o sistema suporte clusters massivos de até aproximadamente 131.000 GPUs usando apenas duas camadas de switch. Em comparação com as arquiteturas tradicionais de duas ou quatro camadas, essa mudança não apenas reduz drasticamente o número de componentes físicos e o consumo de energia, mas também diminui significativamente os custos de construção.
Gerenciamento avançado de tráfego: “dispersão” de pacotes e recuperação em nível de microssegundos
Além da simplificação arquitetônica, o MRC introduz uma abordagem inovadora para a distribuição de tráfego. Ele emprega tecnologia adaptativa de pulverização de pacotes, afastando-se da transmissão tradicional de caminho único. Esse método divide os pacotes de tarefas e os distribui por centenas de caminhos paralelos. Mesmo que os pacotes cheguem fora de ordem, o receptor pode remontá-los com precisão, prevenindo efetivamente o congestionamento localizado na rede central.
Para o controle de rede, o MRC substitui protocolos complexos de roteamento dinâmico (como o BGP) pela tecnologia de roteamento de origem SRv6. Isso permite que o remetente especifique diretamente o caminho, enquanto os switches realizam apenas um encaminhamento estático simples. Esse projeto reduz drasticamente o tempo de recuperação de falhas de rede de segundos para microssegundos, permitindo que o sistema alcance uma “autocorreção quase perfeita” diante da instabilidade do link.
Validação no mundo real: o “estabilizador” do supercomputador
O protocolo MRC já está implantado no supercomputador GB200 da NVIDIA e na infraestrutura de nuvem da Oracle. Dados de teste confirmam que, mesmo durante cenários de treinamento ativo, o MRC pode redirecionar automaticamente em torno de interrupções — como jitter repentino de link ou reinicializações de switch — garantindo que tarefas complexas de treinamento continuem sem interrupção.
Artigo relacionado
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu
Recomendações de tópicos especiais relacionados
Comentários (0)
A OpenAI anunciou oficialmente uma colaboração com cinco líderes do setor — AMD, Broadcom, Intel, Microsoft e NVIDIA — para lançar o protocolo Multipath Reliable Connection (MRC). Esse protocolo de código aberto, lançado por meio do Open Compute Project (OCP), foi projetado para lidar com a latência de rede e as falhas comumente encontradas no treinamento de IA em grande escala.

Eliminando o “ponto único de falha”: da arquitetura de três camadas para a de duas camadas
No treinamento tradicional de modelos de IA, o congestionamento da rede ou uma pequena falha em um único link pode causar um efeito dominó, forçando dezenas de milhares de GPUs a ficarem ociosas e levando a um desperdício computacional significativo.
Para melhorar fundamentalmente a resiliência do sistema, o protocolo MRC introduz um projeto de rede multiplano. Ele divide de forma inteligente uma única interface de 800 Gb/s em vários links menores. Essa otimização estrutural permite que o sistema suporte clusters massivos de até aproximadamente 131.000 GPUs usando apenas duas camadas de switch. Em comparação com as arquiteturas tradicionais de duas ou quatro camadas, essa mudança não apenas reduz drasticamente o número de componentes físicos e o consumo de energia, mas também diminui significativamente os custos de construção.
Gerenciamento avançado de tráfego: “dispersão” de pacotes e recuperação em nível de microssegundos
Além da simplificação arquitetônica, o MRC introduz uma abordagem inovadora para a distribuição de tráfego. Ele emprega tecnologia adaptativa de pulverização de pacotes, afastando-se da transmissão tradicional de caminho único. Esse método divide os pacotes de tarefas e os distribui por centenas de caminhos paralelos. Mesmo que os pacotes cheguem fora de ordem, o receptor pode remontá-los com precisão, prevenindo efetivamente o congestionamento localizado na rede central.
Para o controle de rede, o MRC substitui protocolos complexos de roteamento dinâmico (como o BGP) pela tecnologia de roteamento de origem SRv6. Isso permite que o remetente especifique diretamente o caminho, enquanto os switches realizam apenas um encaminhamento estático simples. Esse projeto reduz drasticamente o tempo de recuperação de falhas de rede de segundos para microssegundos, permitindo que o sistema alcance uma “autocorreção quase perfeita” diante da instabilidade do link.
Validação no mundo real: o “estabilizador” do supercomputador
O protocolo MRC já está implantado no supercomputador GB200 da NVIDIA e na infraestrutura de nuvem da Oracle. Dados de teste confirmam que, mesmo durante cenários de treinamento ativo, o MRC pode redirecionar automaticamente em torno de interrupções — como jitter repentino de link ou reinicializações de switch — garantindo que tarefas complexas de treinamento continuem sem interrupção.
A IA experimental da Anthropic, Claude, conclui negociações e transações em um teste de comércio eletrônico
À medida que a inteligência artificial avança rapidamente, a Anthropic lançou discretamente, na última sexta-feira, um experimento interno chamado “Projeto Deal”, demonstrando o potencial da IA no com
DeepSeek Code pronto para ser lançado
À medida que a tecnologia de IA avança, a DeepSeek encontra-se em um momento emocionante. A empresa de IA revelou recentemente que garantiu mais de 70 bilhões de yuans em financiamento. A direção enfa
O Grok de Musk: 1,5 trilhão de parâmetros e absorção de código de cursor — uma revolução ou um blefe?
Elon Musk finalmente está entrando em ação.Na corrida pela programação de IA, a OpenAI e a Anthropic estão acelerando, enquanto a xAI parece estar ficando para trás. Musk já declarou várias vezes seu











