Hogar
Anthropic introduce una función para que sus modelos Claude pongan fin a los chats abusivos

Anthropic ha introducido una nueva funcionalidad que permite a determinados modelos avanzados poner fin a las conversaciones en lo que la empresa denomina "casos raros y extremos de interacciones persistentemente dañinas o abusivas por parte del usuario". En particular, Anthropic afirma que esta medida no se aplica para proteger a los usuarios humanos, sino al propio modelo de IA.
Para aclarar, la empresa no está afirmando que sus modelos de IA Claude posean sensibilidad o puedan sufrir daños por las conversaciones de los usuarios. Como explica Anthropic, la empresa sigue teniendo "muchas dudas sobre el posible estatus moral de Claude y otros grandes modelos lingüísticos, tanto en la actualidad como en el futuro".
No obstante, el anuncio hace referencia a un programa recientemente establecido que examina el "bienestar del modelo", indicando que Anthropic está adoptando un enfoque preventivo al "trabajar para identificar e implementar intervenciones de bajo coste para mitigar los riesgos para el bienestar del modelo, en caso de que dicho bienestar llegue a ser relevante".
Esta nueva capacidad está actualmente restringida a los modelos Claude Opus 4 y 4.1, diseñados específicamente para "casos extremos" como "solicitudes de contenido sexual que impliquen a menores o intentos de obtener información que permita la violencia a gran escala o actividades terroristas".
Aunque este tipo de solicitudes podrían generar problemas legales o de relaciones públicas para Anthropic (como se ha visto en informes recientes sobre la posibilidad de que ChatGPT refuerce el pensamiento delirante de los usuarios), la empresa informa de que durante las pruebas previas al despliegue, Claude Opus 4 demostró una "fuerte preferencia en contra" de cumplir con estas solicitudes y mostró "patrones que sugieren angustia" cuando se le obligó a responder.
En cuanto a estas nuevas capacidades de finalización de conversaciones, Anthropic aclara que "Claude tiene instrucciones de emplear esta función sólo como último recurso después de que hayan fallado múltiples intentos de redirección y parezca imposible un diálogo productivo, o cuando los usuarios soliciten explícitamente finalizar un chat".
Anthropic especifica además que Claude ha sido "instruido para no utilizar esta capacidad en situaciones en las que los usuarios podrían enfrentarse a un riesgo inminente de autolesionarse o dañar a otros."
Evento de TechcrunchPesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son sólo algunos de los líderes del sector que se unen a la agenda de Disrupt 2025. Compartirán información crucial para acelerar el crecimiento de las startups y mejorar su ventaja competitiva. No se pierda la edición del 20º aniversario de TechCrunch Disrupt: asegure su entrada ahora y ahorre más de 600 $ antes de que suban los precios.
Los pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - entre los destacados innovadores que se unen a la agenda de Disrupt 2025. Están aquí para ofrecer valiosas perspectivas que impulsen la expansión de las startups y mejoren su posicionamiento competitivo. Únase a nosotros en la celebración del 20º aniversario de TechCrunch Disrupt - compre su entrada hoy y ahorre hasta 675 $ antes de que cambien las tarifas.
San Francisco | 27-29 de octubre de 2025 REGÍSTRESE AHORACuando Claude pone fin a una conversación, Anthropic señala que los usuarios aún pueden iniciar nuevas conversaciones desde la misma cuenta y crear ramas de conversación alternativas modificando sus respuestas anteriores.
"Estamos enfocando esta función como un experimento en curso y seguiremos perfeccionando nuestra metodología", afirma la empresa.
Artículo relacionado
Anthropic amplía sus colaboraciones en materia de recursos informáticos con Google y Broadrom
El laboratorio de investigación en IA Anthropic anunció el lunes un nuevo acuerdo con Google y Broadcom para potenciar significativamente la capacidad de procesamiento y computacional de sus modelos d
Claude gana terreno a ChatGPT a medida que los usuarios se pasan a esta plataforma
Tras una serie de polémicas relacionadas con ChatGPT y su empresa matriz, OpenAI, un número cada vez mayor de usuarios está migrando a Claude.El punto de inflexión se produjo después de que Anthropic,
Qué significa para la seguridad nacional el enfrentamiento de Anthropic con el Pentágono
Las últimas dos semanas han estado marcadas por un enfrentamiento público entre el director ejecutivo de Anthropic, Dario Amodei, y el secretario de Defensa, Pete Hegseth, centrado en la aplicación de
Recomendaciones de temas especiales relacionados
comentario (1)
0/500

Anthropic ha introducido una nueva funcionalidad que permite a determinados modelos avanzados poner fin a las conversaciones en lo que la empresa denomina "casos raros y extremos de interacciones persistentemente dañinas o abusivas por parte del usuario". En particular, Anthropic afirma que esta medida no se aplica para proteger a los usuarios humanos, sino al propio modelo de IA.
Para aclarar, la empresa no está afirmando que sus modelos de IA Claude posean sensibilidad o puedan sufrir daños por las conversaciones de los usuarios. Como explica Anthropic, la empresa sigue teniendo "muchas dudas sobre el posible estatus moral de Claude y otros grandes modelos lingüísticos, tanto en la actualidad como en el futuro".
No obstante, el anuncio hace referencia a un programa recientemente establecido que examina el "bienestar del modelo", indicando que Anthropic está adoptando un enfoque preventivo al "trabajar para identificar e implementar intervenciones de bajo coste para mitigar los riesgos para el bienestar del modelo, en caso de que dicho bienestar llegue a ser relevante".
Esta nueva capacidad está actualmente restringida a los modelos Claude Opus 4 y 4.1, diseñados específicamente para "casos extremos" como "solicitudes de contenido sexual que impliquen a menores o intentos de obtener información que permita la violencia a gran escala o actividades terroristas".
Aunque este tipo de solicitudes podrían generar problemas legales o de relaciones públicas para Anthropic (como se ha visto en informes recientes sobre la posibilidad de que ChatGPT refuerce el pensamiento delirante de los usuarios), la empresa informa de que durante las pruebas previas al despliegue, Claude Opus 4 demostró una "fuerte preferencia en contra" de cumplir con estas solicitudes y mostró "patrones que sugieren angustia" cuando se le obligó a responder.
En cuanto a estas nuevas capacidades de finalización de conversaciones, Anthropic aclara que "Claude tiene instrucciones de emplear esta función sólo como último recurso después de que hayan fallado múltiples intentos de redirección y parezca imposible un diálogo productivo, o cuando los usuarios soliciten explícitamente finalizar un chat".
Anthropic especifica además que Claude ha sido "instruido para no utilizar esta capacidad en situaciones en las que los usuarios podrían enfrentarse a un riesgo inminente de autolesionarse o dañar a otros."
Evento de TechcrunchPesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son sólo algunos de los líderes del sector que se unen a la agenda de Disrupt 2025. Compartirán información crucial para acelerar el crecimiento de las startups y mejorar su ventaja competitiva. No se pierda la edición del 20º aniversario de TechCrunch Disrupt: asegure su entrada ahora y ahorre más de 600 $ antes de que suban los precios.
Los pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - entre los destacados innovadores que se unen a la agenda de Disrupt 2025. Están aquí para ofrecer valiosas perspectivas que impulsen la expansión de las startups y mejoren su posicionamiento competitivo. Únase a nosotros en la celebración del 20º aniversario de TechCrunch Disrupt - compre su entrada hoy y ahorre hasta 675 $ antes de que cambien las tarifas.
San Francisco | 27-29 de octubre de 2025 REGÍSTRESE AHORACuando Claude pone fin a una conversación, Anthropic señala que los usuarios aún pueden iniciar nuevas conversaciones desde la misma cuenta y crear ramas de conversación alternativas modificando sus respuestas anteriores.
"Estamos enfocando esta función como un experimento en curso y seguiremos perfeccionando nuestra metodología", afirma la empresa.
Anthropic amplía sus colaboraciones en materia de recursos informáticos con Google y Broadrom
El laboratorio de investigación en IA Anthropic anunció el lunes un nuevo acuerdo con Google y Broadcom para potenciar significativamente la capacidad de procesamiento y computacional de sus modelos d
Claude gana terreno a ChatGPT a medida que los usuarios se pasan a esta plataforma
Tras una serie de polémicas relacionadas con ChatGPT y su empresa matriz, OpenAI, un número cada vez mayor de usuarios está migrando a Claude.El punto de inflexión se produjo después de que Anthropic,
Qué significa para la seguridad nacional el enfrentamiento de Anthropic con el Pentágono
Las últimas dos semanas han estado marcadas por un enfrentamiento público entre el director ejecutivo de Anthropic, Dario Amodei, y el secretario de Defensa, Pete Hegseth, centrado en la aplicación de











