Claude Opus 4.7 é lançado com a confiabilidade em detrimento da inteligência
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi direta no anúncio: “Este não é o nosso modelo mais poderoso.” O rumorado e mais robusto Claude Mythos Preview permanece em espera. Ainda assim, o Opus 4.7 gerou considerável atenção porque aborda a questão de ser “mais confiável” em vez de “mais inteligente”.

Os resultados dos benchmarks são notavelmente impressionantes. No rigoroso benchmark de codificação SWE-bench Pro, o 4.7 saltou de 53,4% na versão anterior para 64,3%, um ganho de quase 11 pontos percentuais, superando o GPT-5.4 (57,7%) e o Gemini 3.1 Pro (54,2%). No benchmark de raciocínio visual CharXiv, subiu de 69,1% para 82,1%, impulsionado pela capacidade de reconhecimento de lado longo de 2576 pixels recém-adicionada, oferecendo mais de três vezes a nitidez de seu antecessor. Na avaliação de identificação de ferramentas MCP-Atlas, obteve 77,3%, e no benchmark da plataforma de IA jurídica Harvey's BigLaw, atingiu 90,9%. No entanto, na avaliação de pesquisa agentiva BrowseComp, o 4.7 sofreu um ligeiro declínio de 83,7% para 79,3%, sendo ultrapassado pelo GPT-5.4 e pelo Gemini — isso é atribuído à sua personalidade de “não inventar”, que prefere relatar erros em vez de adivinhar quando as informações estão incompletas.
Além dos números, a mudança de temperamento é mais digna de nota. O líder da Replit observou após os testes: “Ele me desafia em discussões técnicas, me ajuda a tomar melhores decisões e realmente age como um colega melhor.” A plataforma de ciência de dados Hex também observou que o 4.7 relata erros diretamente quando faltam dados, em vez de fornecer um valor alternativo “aparentemente razoável, mas completamente incorreto”, como antes. Ao mesmo tempo, a resiliência nas tarefas melhorou significativamente — testes da equipe da Notion indicam que a taxa de erros da ferramenta foi reduzida a um terço dos níveis anteriores e, quando a cadeia de ferramentas falha, ela consegue contornar obstáculos e concluir tarefas de forma independente. A Vercel descobriu até mesmo um novo comportamento: antes de escrever código no nível do sistema, a versão 4.7 primeiro realiza provas matemáticas por conta própria.

É claro que o aumento da capacidade tem um custo. A versão 4.7 introduz um novo tokenizador, gerando de 1 a 1,35 vezes mais tokens para o mesmo texto. Além disso, ela tende a “pensar um pouco mais” em tarefas complexas, de modo que o consumo real é quase certamente maior. Para resolver isso, a Anthropic adicionou um nível de intensidade de raciocínio ultra-alto, chamado xhigh. O Claude Code configurou todos os pacotes para esse nível por padrão e também lançou a instrução Deep Review / ultrareview, a extensão Auto Mode para usuários do Max e uma versão beta pública do recurso “task budget” para ajudar os desenvolvedores a gerenciar o uso de tokens.
O Mythos Preview, ainda mais poderoso, foi recentemente disponibilizado para empresas sob o nome “Project Glasswing” para pesquisa em segurança cibernética, mas devido à sua capacidade avassaladora e às avaliações de segurança incompletas, ele ainda não foi lançado publicamente.
A versão 4.7 de hoje representa o mais recente marco no ritmo de lançamento de alta frequência da Anthropic. O Mythos chegará eventualmente — e, quando isso acontecer, a já robusta versão 4.7 pode vir a ser apenas o começo.
Artigo relacionado
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr
Recomendações de tópicos especiais relacionados
Comentários (0)
A Anthropic manteve um ritmo acelerado este ano, lançando novos recursos quase a cada dois dias. O tão aguardado Claude Opus 4.7 acaba de ser lançado oficialmente e, curiosamente, a Anthropic foi direta no anúncio: “Este não é o nosso modelo mais poderoso.” O rumorado e mais robusto Claude Mythos Preview permanece em espera. Ainda assim, o Opus 4.7 gerou considerável atenção porque aborda a questão de ser “mais confiável” em vez de “mais inteligente”.

Os resultados dos benchmarks são notavelmente impressionantes. No rigoroso benchmark de codificação SWE-bench Pro, o 4.7 saltou de 53,4% na versão anterior para 64,3%, um ganho de quase 11 pontos percentuais, superando o GPT-5.4 (57,7%) e o Gemini 3.1 Pro (54,2%). No benchmark de raciocínio visual CharXiv, subiu de 69,1% para 82,1%, impulsionado pela capacidade de reconhecimento de lado longo de 2576 pixels recém-adicionada, oferecendo mais de três vezes a nitidez de seu antecessor. Na avaliação de identificação de ferramentas MCP-Atlas, obteve 77,3%, e no benchmark da plataforma de IA jurídica Harvey's BigLaw, atingiu 90,9%. No entanto, na avaliação de pesquisa agentiva BrowseComp, o 4.7 sofreu um ligeiro declínio de 83,7% para 79,3%, sendo ultrapassado pelo GPT-5.4 e pelo Gemini — isso é atribuído à sua personalidade de “não inventar”, que prefere relatar erros em vez de adivinhar quando as informações estão incompletas.
Além dos números, a mudança de temperamento é mais digna de nota. O líder da Replit observou após os testes: “Ele me desafia em discussões técnicas, me ajuda a tomar melhores decisões e realmente age como um colega melhor.” A plataforma de ciência de dados Hex também observou que o 4.7 relata erros diretamente quando faltam dados, em vez de fornecer um valor alternativo “aparentemente razoável, mas completamente incorreto”, como antes. Ao mesmo tempo, a resiliência nas tarefas melhorou significativamente — testes da equipe da Notion indicam que a taxa de erros da ferramenta foi reduzida a um terço dos níveis anteriores e, quando a cadeia de ferramentas falha, ela consegue contornar obstáculos e concluir tarefas de forma independente. A Vercel descobriu até mesmo um novo comportamento: antes de escrever código no nível do sistema, a versão 4.7 primeiro realiza provas matemáticas por conta própria.

É claro que o aumento da capacidade tem um custo. A versão 4.7 introduz um novo tokenizador, gerando de 1 a 1,35 vezes mais tokens para o mesmo texto. Além disso, ela tende a “pensar um pouco mais” em tarefas complexas, de modo que o consumo real é quase certamente maior. Para resolver isso, a Anthropic adicionou um nível de intensidade de raciocínio ultra-alto, chamado xhigh. O Claude Code configurou todos os pacotes para esse nível por padrão e também lançou a instrução Deep Review / ultrareview, a extensão Auto Mode para usuários do Max e uma versão beta pública do recurso “task budget” para ajudar os desenvolvedores a gerenciar o uso de tokens.
O Mythos Preview, ainda mais poderoso, foi recentemente disponibilizado para empresas sob o nome “Project Glasswing” para pesquisa em segurança cibernética, mas devido à sua capacidade avassaladora e às avaliações de segurança incompletas, ele ainda não foi lançado publicamente.
A versão 4.7 de hoje representa o mais recente marco no ritmo de lançamento de alta frequência da Anthropic. O Mythos chegará eventualmente — e, quando isso acontecer, a já robusta versão 4.7 pode vir a ser apenas o começo.
Principal investidor da Suno: a exclusão de publicações não resolverá o problema do processo por violação de direitos autorais
A tão esperada plataforma de geração musical por IA, Suno, enfrenta uma dura batalha judicial sobre direitos autorais, e um comentário sincero de seu principal investidor pode ter dado ao lado adversá
A Haier lança o robô exoesqueleto esportivo com IA mais leve do mundo, pesando apenas 1,75 kg
O Grupo Haier apresentou o robô exoesqueleto com inteligência artificial mais leve do mundo para esportes — o Haier Exoskeleton Robot W3. Este lançamento estabelece um novo recorde do setor em termos
A primeira série dramática com AIGC da Yaoke Media, “O Mistério do Bronze em Qinling”, estreia hoje com protagonistas criados por IA
Hoje marca o lançamento oficial da minissérie de mistério e fantasia com IA da Yaoke Media, “A História Secreta do Bronze de Qinling”. Estrelada pelos dois primeiros atores de IA contratados pela empr





Lar






