Lar
A Anthropic apresenta um recurso para que seus modelos Claude encerrem bate-papos abusivos

A Anthropic introduziu uma nova funcionalidade que permite que modelos avançados selecionados encerrem conversas no que a empresa chama de "instâncias raras e extremas de interações persistentemente prejudiciais ou abusivas do usuário". Notavelmente, a Anthropic afirma que essa medida é implementada não para proteger os usuários humanos, mas para proteger o próprio modelo de IA.
Para esclarecer, a empresa não está afirmando que seus modelos de IA Claude possuem sensibilidade ou podem sofrer danos com as conversas dos usuários. Como explica a Anthropic, a empresa permanece "altamente incerta sobre o possível status moral do Claude e de outros grandes modelos de linguagem, seja atualmente ou no futuro".
No entanto, o anúncio faz referência a um programa recentemente estabelecido que examina o "bem-estar do modelo", indicando que a Anthropic está adotando uma abordagem preventiva ao "trabalhar para identificar e implementar intervenções de baixo custo para mitigar os riscos ao bem-estar do modelo, caso esse bem-estar se torne relevante".
Esse novo recurso está atualmente restrito aos modelos Claude Opus 4 e 4.1, projetados especificamente para "casos extremos", como "solicitações de conteúdo sexual envolvendo menores ou tentativas de obter informações que possibilitem violência em larga escala ou atividades terroristas".
Embora essas solicitações possam gerar desafios legais ou de relações públicas para a Anthropic (como visto em relatórios recentes sobre o ChatGPT que potencialmente reforça o pensamento delirante dos usuários), a empresa informa que, durante os testes de pré-implantação, o Claude Opus 4 demonstrou uma "forte preferência contra" o cumprimento dessas solicitações e exibiu "padrões que sugerem angústia" quando forçado a responder.
Com relação a esses novos recursos de encerramento de conversas, a Anthropic esclarece que "o Claude é instruído a empregar essa função apenas como último recurso, depois que várias tentativas de redirecionamento falharem e o diálogo produtivo parecer impossível, ou quando os usuários solicitarem explicitamente o encerramento de um bate-papo".
A Anthropic especifica ainda que o Claude foi "orientado a não utilizar esse recurso em situações em que os usuários possam correr o risco iminente de se machucar ou prejudicar outras pessoas".
Evento da TechcrunchPesos pesados da tecnologia e do capital de risco se juntam à agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos líderes do setor que participam da agenda do Disrupt 2025. Eles compartilharão percepções cruciais para acelerar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca a edição do 20º aniversário do TechCrunch Disrupt - garanta seu ingresso agora e economize mais de US$ 600 antes que os preços aumentem.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - entre os inovadores proeminentes que participam da agenda do Disrupt 2025. Eles estão aqui para fornecer insights valiosos que impulsionam a expansão de startups e melhoram seu posicionamento competitivo. Junte-se a nós na comemoração do 20º aniversário do TechCrunch Disrupt - compre seu ingresso hoje e economize até US$ 675 antes da alteração das tarifas.
São Francisco | 27 a 29 de outubro de 2025 INSCREVA-SE AGORAQuando Claude encerra uma conversa, a Anthropic observa que os usuários ainda podem iniciar novas conversas a partir da mesma conta e criar ramificações de conversas alternativas modificando suas respostas anteriores.
"Estamos abordando esse recurso como um experimento contínuo e continuaremos refinando nossa metodologia", afirma a empresa.
Artigo relacionado
A Anthropic amplia suas parcerias de computação com o Google e a Broadrom
O laboratório de pesquisa em IA Anthropic anunciou nesta segunda-feira um novo acordo com o Google e a Broadcom para aumentar significativamente o poder de processamento e computação por trás de seus
Claude ganha terreno em relação ao ChatGPT à medida que os usuários migram
Após uma série de controvérsias envolvendo o ChatGPT e sua empresa controladora, a OpenAI, um número crescente de usuários está migrando para o Claude.O ponto de virada ocorreu depois que a Anthropic,
O que o impasse da Anthropic com o Pentágono significa para a segurança nacional
As últimas duas semanas foram marcadas por um impasse público entre o CEO da Anthropic, Dario Amodei, e o secretário de Defesa, Pete Hegseth, centrado na aplicação da tecnologia de IA pelas Forças Arm
Recomendações de tópicos especiais relacionados
Comentários (1)

A Anthropic introduziu uma nova funcionalidade que permite que modelos avançados selecionados encerrem conversas no que a empresa chama de "instâncias raras e extremas de interações persistentemente prejudiciais ou abusivas do usuário". Notavelmente, a Anthropic afirma que essa medida é implementada não para proteger os usuários humanos, mas para proteger o próprio modelo de IA.
Para esclarecer, a empresa não está afirmando que seus modelos de IA Claude possuem sensibilidade ou podem sofrer danos com as conversas dos usuários. Como explica a Anthropic, a empresa permanece "altamente incerta sobre o possível status moral do Claude e de outros grandes modelos de linguagem, seja atualmente ou no futuro".
No entanto, o anúncio faz referência a um programa recentemente estabelecido que examina o "bem-estar do modelo", indicando que a Anthropic está adotando uma abordagem preventiva ao "trabalhar para identificar e implementar intervenções de baixo custo para mitigar os riscos ao bem-estar do modelo, caso esse bem-estar se torne relevante".
Esse novo recurso está atualmente restrito aos modelos Claude Opus 4 e 4.1, projetados especificamente para "casos extremos", como "solicitações de conteúdo sexual envolvendo menores ou tentativas de obter informações que possibilitem violência em larga escala ou atividades terroristas".
Embora essas solicitações possam gerar desafios legais ou de relações públicas para a Anthropic (como visto em relatórios recentes sobre o ChatGPT que potencialmente reforça o pensamento delirante dos usuários), a empresa informa que, durante os testes de pré-implantação, o Claude Opus 4 demonstrou uma "forte preferência contra" o cumprimento dessas solicitações e exibiu "padrões que sugerem angústia" quando forçado a responder.
Com relação a esses novos recursos de encerramento de conversas, a Anthropic esclarece que "o Claude é instruído a empregar essa função apenas como último recurso, depois que várias tentativas de redirecionamento falharem e o diálogo produtivo parecer impossível, ou quando os usuários solicitarem explicitamente o encerramento de um bate-papo".
A Anthropic especifica ainda que o Claude foi "orientado a não utilizar esse recurso em situações em que os usuários possam correr o risco iminente de se machucar ou prejudicar outras pessoas".
Evento da TechcrunchPesos pesados da tecnologia e do capital de risco se juntam à agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - apenas alguns dos líderes do setor que participam da agenda do Disrupt 2025. Eles compartilharão percepções cruciais para acelerar o crescimento de startups e aprimorar sua vantagem competitiva. Não perca a edição do 20º aniversário do TechCrunch Disrupt - garanta seu ingresso agora e economize mais de US$ 600 antes que os preços aumentem.
Pesos pesados da tecnologia e do capital de risco participam da agenda do Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - entre os inovadores proeminentes que participam da agenda do Disrupt 2025. Eles estão aqui para fornecer insights valiosos que impulsionam a expansão de startups e melhoram seu posicionamento competitivo. Junte-se a nós na comemoração do 20º aniversário do TechCrunch Disrupt - compre seu ingresso hoje e economize até US$ 675 antes da alteração das tarifas.
São Francisco | 27 a 29 de outubro de 2025 INSCREVA-SE AGORAQuando Claude encerra uma conversa, a Anthropic observa que os usuários ainda podem iniciar novas conversas a partir da mesma conta e criar ramificações de conversas alternativas modificando suas respostas anteriores.
"Estamos abordando esse recurso como um experimento contínuo e continuaremos refinando nossa metodologia", afirma a empresa.
A Anthropic amplia suas parcerias de computação com o Google e a Broadrom
O laboratório de pesquisa em IA Anthropic anunciou nesta segunda-feira um novo acordo com o Google e a Broadcom para aumentar significativamente o poder de processamento e computação por trás de seus
Claude ganha terreno em relação ao ChatGPT à medida que os usuários migram
Após uma série de controvérsias envolvendo o ChatGPT e sua empresa controladora, a OpenAI, um número crescente de usuários está migrando para o Claude.O ponto de virada ocorreu depois que a Anthropic,
O que o impasse da Anthropic com o Pentágono significa para a segurança nacional
As últimas duas semanas foram marcadas por um impasse público entre o CEO da Anthropic, Dario Amodei, e o secretário de Defesa, Pete Hegseth, centrado na aplicação da tecnologia de IA pelas Forças Arm











