Lar
Cursor Composer 2 x Claude Opus 4.6: Teste de desempenho reacende o debate sobre programação com IA
Em 19 de março, a Cursor lançou oficialmente seu modelo de programação desenvolvido internamente, o Composer 2. O anúncio gerou discussão imediata na comunidade de desenvolvedores – segundo a Cursor, o Composer 2 obteve 61,7% no Terminal-Bench 2.0, superando notavelmente os 58,0% do Claude Opus 4.6 em condições de teste idênticas.
Será que o modelo carro-chefe da Anthropic foi superado por um modelo integrado ao seu próprio IDE? À medida que a notícia se espalhou, debates surgiram rapidamente.

Três resultados-chave de benchmark
A Cursor publicou três conjuntos de resultados de benchmark, todos divulgados publicamente:
Terminal-Bench 2.0 (tarefas de codificação em terminal no estilo agente): o Composer 2 obteve 61,7%, superando os 58,0%do Claude Opus 4.6. No entanto, o OpenAI GPT-5.4 continua à frente com 75,1%. CursorBench (cenários de codificação do mundo real dentro do Cursor): O Composer 2 atingiu 61,3%, um salto substancial em relação aos 44,2% do Composer 1.5 anterior, e também superior aos 58,2%do Claude Opus 4.6. SWE-bench Multilingual (engenharia de software multilíngue): O Composer 2 alcançou 73,7%, uma melhoria notável em relação ao seu antecessor.No entanto, vale a pena destacar um detalhe: a Anthropic informou anteriormente que o Claude Opus 4.6 obteve 65,4% no Terminal-Bench 2.0 em configurações otimizadas, muito acima dos 58,0% citados pelo Cursor. A discrepância decorre da estrutura de testes – a Cursor utilizou ambientes de agentes de terceiros, como o Harbor, e calculou a média dos resultados em cinco execuções, enquanto os números da Anthropic vieram de sua própria configuração otimizada. Esses dois conjuntos de números não são diretamente comparáveis, pois utilizam sistemas de referência diferentes. A Cursor não se esquivou disso; o anúncio declarou explicitamente que “os resultados dependem do agente, do harness e das configurações”.
Custo de apenas um décimo do Opus 4.6
A relação custo-benefício é a verdadeira vantagem oculta do Composer 2.
Com preço de US$ 0,50 / US$ 2,50 por milhão de tokens de entrada/saída, contra US$ 5 / US$ 25 do Claude Opus 4.6 e US$ 2,5 / US$ 15 do GPT-5.4, o contraste é gritante. A Cursor explica que o Composer 2 foi construído do zero para tarefas de codificação de longo prazo, utilizando seu treinamento RL proprietário e tecnologia de “auto-resumo” para reduzir tanto a latência quanto o custo – o que eles descrevem como “inteligência de ponta + velocidade extrema”.
O Composer 2 é o terceiro modelo interno da Cursor, sucedendo o Composer 1 (outubro de 2025) e a versão 1.5 (fevereiro de 2026). Este lançamento enfatiza “tarefas de longo prazo” e torna uma variante mais rápida e leve o modelo padrão no Cursor IDE.
O que significa esse “renascimento das cinzas”
A decisão da Cursor de comparar diretamente seu modelo com o Opus 4.6 sinaliza uma mudança no panorama mais amplo das ferramentas de codificação de IA.
A OpenAI e a Anthropic competem em capacidades de ponta gerais, enquanto fornecedores de ferramentas verticais como a Cursor seguiram um caminho diferente: aprimorando o desempenho em tarefas específicas a um nível excepcional e, em seguida, usando vantagens de preço para se destacar. Veículos de mídia como VentureBeat e The New Stack observaram que o Composer 2 acelerará a implementação prática do “roteamento multimodelo” – usando o Opus ou o GPT para raciocínios complexos e mudando para o Composer 2 para a codificação cotidiana de alta frequência, obtendo benefícios em ambos os lados.
O Claude Opus 4.6 foi lançado em 5 de fevereiro e liderou em vários benchmarks, incluindo Terminal-Bench 2.0, Humanity's Last Exam e GDPval-AA. Os novos resultados da Cursor, no mínimo, levantam questões sobre esse domínio no segmento de codificação especializada.
A resposta dos desenvolvedores tem sido amplamente positiva até agora, mas muitos dizem que querem ver o desempenho em projetos do mundo real antes de tirar conclusões – uma postura justa, já que benchmarks são apenas benchmarks. A Cursor já disponibilizou o Composer 2 para teste gratuito dentro do IDE para usuários assinantes.
Fonte dos dados: Anúncios oficiais do Cursor e principais meios de comunicação de tecnologia, em 20 de março de 2026. As classificações atuais podem ser consultadas em tbench.ai ou no site do Cursor.
Artigo relacionado
A Baidu Health testa internamente o DoctorClaw, um assistente médico baseado em IA, para pesquisa acadêmica e assistência administrativa a curto prazo
A Baidu Health teria iniciado testes internos de um assistente inteligente com IA profissional, projetado para médicos. Conhecido internamente como “DoctorClaw” (a versão “Lobster Doctor”), esse produ
O StrictlyVC de São Francisco reunirá líderes da TDK Ventures, da Replit e de outras empresas
O primeiro evento StrictlyVC do ano está chegando a São Francisco mais cedo do que você imagina. Ainda há ingressos disponíveis para nosso encontro de 30 de abril no Sentro Filipino Cultural Center, c
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor
Recomendações de tópicos especiais relacionados
Comentários (0)
Em 19 de março, a Cursor lançou oficialmente seu modelo de programação desenvolvido internamente, o Composer 2. O anúncio gerou discussão imediata na comunidade de desenvolvedores – segundo a Cursor, o Composer 2 obteve 61,7% no Terminal-Bench 2.0, superando notavelmente os 58,0% do Claude Opus 4.6 em condições de teste idênticas.
Será que o modelo carro-chefe da Anthropic foi superado por um modelo integrado ao seu próprio IDE? À medida que a notícia se espalhou, debates surgiram rapidamente.

Três resultados-chave de benchmark
A Cursor publicou três conjuntos de resultados de benchmark, todos divulgados publicamente:
Terminal-Bench 2.0 (tarefas de codificação em terminal no estilo agente): o Composer 2 obteve 61,7%, superando os 58,0%do Claude Opus 4.6. No entanto, o OpenAI GPT-5.4 continua à frente com 75,1%. CursorBench (cenários de codificação do mundo real dentro do Cursor): O Composer 2 atingiu 61,3%, um salto substancial em relação aos 44,2% do Composer 1.5 anterior, e também superior aos 58,2%do Claude Opus 4.6. SWE-bench Multilingual (engenharia de software multilíngue): O Composer 2 alcançou 73,7%, uma melhoria notável em relação ao seu antecessor.No entanto, vale a pena destacar um detalhe: a Anthropic informou anteriormente que o Claude Opus 4.6 obteve 65,4% no Terminal-Bench 2.0 em configurações otimizadas, muito acima dos 58,0% citados pelo Cursor. A discrepância decorre da estrutura de testes – a Cursor utilizou ambientes de agentes de terceiros, como o Harbor, e calculou a média dos resultados em cinco execuções, enquanto os números da Anthropic vieram de sua própria configuração otimizada. Esses dois conjuntos de números não são diretamente comparáveis, pois utilizam sistemas de referência diferentes. A Cursor não se esquivou disso; o anúncio declarou explicitamente que “os resultados dependem do agente, do harness e das configurações”.
Custo de apenas um décimo do Opus 4.6
A relação custo-benefício é a verdadeira vantagem oculta do Composer 2.
Com preço de US$ 0,50 / US$ 2,50 por milhão de tokens de entrada/saída, contra US$ 5 / US$ 25 do Claude Opus 4.6 e US$ 2,5 / US$ 15 do GPT-5.4, o contraste é gritante. A Cursor explica que o Composer 2 foi construído do zero para tarefas de codificação de longo prazo, utilizando seu treinamento RL proprietário e tecnologia de “auto-resumo” para reduzir tanto a latência quanto o custo – o que eles descrevem como “inteligência de ponta + velocidade extrema”.
O Composer 2 é o terceiro modelo interno da Cursor, sucedendo o Composer 1 (outubro de 2025) e a versão 1.5 (fevereiro de 2026). Este lançamento enfatiza “tarefas de longo prazo” e torna uma variante mais rápida e leve o modelo padrão no Cursor IDE.
O que significa esse “renascimento das cinzas”
A decisão da Cursor de comparar diretamente seu modelo com o Opus 4.6 sinaliza uma mudança no panorama mais amplo das ferramentas de codificação de IA.
A OpenAI e a Anthropic competem em capacidades de ponta gerais, enquanto fornecedores de ferramentas verticais como a Cursor seguiram um caminho diferente: aprimorando o desempenho em tarefas específicas a um nível excepcional e, em seguida, usando vantagens de preço para se destacar. Veículos de mídia como VentureBeat e The New Stack observaram que o Composer 2 acelerará a implementação prática do “roteamento multimodelo” – usando o Opus ou o GPT para raciocínios complexos e mudando para o Composer 2 para a codificação cotidiana de alta frequência, obtendo benefícios em ambos os lados.
O Claude Opus 4.6 foi lançado em 5 de fevereiro e liderou em vários benchmarks, incluindo Terminal-Bench 2.0, Humanity's Last Exam e GDPval-AA. Os novos resultados da Cursor, no mínimo, levantam questões sobre esse domínio no segmento de codificação especializada.
A resposta dos desenvolvedores tem sido amplamente positiva até agora, mas muitos dizem que querem ver o desempenho em projetos do mundo real antes de tirar conclusões – uma postura justa, já que benchmarks são apenas benchmarks. A Cursor já disponibilizou o Composer 2 para teste gratuito dentro do IDE para usuários assinantes.
Fonte dos dados: Anúncios oficiais do Cursor e principais meios de comunicação de tecnologia, em 20 de março de 2026. As classificações atuais podem ser consultadas em tbench.ai ou no site do Cursor.
A Baidu Health testa internamente o DoctorClaw, um assistente médico baseado em IA, para pesquisa acadêmica e assistência administrativa a curto prazo
A Baidu Health teria iniciado testes internos de um assistente inteligente com IA profissional, projetado para médicos. Conhecido internamente como “DoctorClaw” (a versão “Lobster Doctor”), esse produ
O StrictlyVC de São Francisco reunirá líderes da TDK Ventures, da Replit e de outras empresas
O primeiro evento StrictlyVC do ano está chegando a São Francisco mais cedo do que você imagina. Ainda há ingressos disponíveis para nosso encontro de 30 de abril no Sentro Filipino Cultural Center, c
A Notion transforma seu espaço de trabalho em um centro para agentes de IA
A Notion, empresa de software de produtividade, está entrando na era dos agentes.Durante um anúncio de produto transmitido ao vivo na quarta-feira, a Notion — mais conhecida por seu aplicativo colabor











