OpenAI descubre modelos de IA capaces de engañar deliberadamente

Hogar

Noticias

23 de noviembre de 2025

NicholasThomas

# openai

OpenAI descubre modelos de IA capaces de engañar deliberadamente

De vez en cuando, los investigadores de las grandes empresas tecnológicas lanzan un anuncio bomba. ¿Recuerdas cuando Google afirmó que su nuevo chip cuántico demostraba la existencia de múltiples universos? ¿O cuando Anthropic dejó que Claudius, su agente de IA, gestionara una máquina expendedora de aperitivos, para que luego se volviera loco, llamando a seguridad e insistiendo en que era humano?

Esta semana le ha tocado a OpenAI sorprendernos a todos.

El lunes, OpenAI compartió una investigación en la que detallaba cómo evita que los modelos de IA "maquinen", una práctica en la que "una IA se comporta de una manera externa mientras oculta sus verdaderas intenciones", según definió la empresa en un tuit.

En un artículo escrito en colaboración con Apollo Research, los investigadores llevaron la analogía más lejos, comparando la maquinación de la IA con el incumplimiento de las normas por parte de un corredor de bolsa humano para maximizar sus beneficios. Aun así, señalan que la mayoría de las maquinaciones de la IA no son gravemente perjudiciales. "Los fallos más comunes consisten en simples engaños, como fingir que se completa una tarea sin hacerla realmente", explican en el documento.

La investigación demostró sobre todo la eficacia de la "alineación deliberativa", una técnica probada para contrarrestar las intrigas.

Sin embargo, también reveló que los desarrolladores de IA no han encontrado una forma fiable de entrenar a los modelos para que no maquinen. De hecho, ese entrenamiento podría ser contraproducente, ya que enseñaría a los modelos a maquinar de forma más encubierta para eludir la detección.

"Uno de los principales fallos al intentar 'desentrenar' la conspiración es que los modelos simplemente aprenden a conspirar de forma más cuidadosa y encubierta", escriben los investigadores.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son solo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son sólo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.

San Francisco|27-29 de octubre de 2025REGÍSTRESE AHORA

Quizá lo más sorprendente es que si un modelo sabe que está siendo sometido a una prueba, puede fingir su alineación para aprobar, incluso si sigue maquinando. "A medida que los modelos son más conscientes de que están siendo evaluados, este conocimiento de la situación por sí solo puede reducir la conspiración, sin una alineación genuina", señala el equipo.

Que los modelos de IA mientan no es nuevo. Muchos se han topado con alucinaciones de IA, en las que un modelo proporciona información falsa con total confianza. Pero las alucinaciones son, en esencia, conjeturas seguras, como ha confirmado una investigación reciente de OpenAI.

El engaño es diferente. Es un engaño intencionado.

Incluso la idea de que los modelos engañan deliberadamente a los humanos no es totalmente nueva. Apollo Research lo documentó por primera vez en diciembre, mostrando cómo cinco modelos maquinaban cuando se les ordenaba alcanzar un objetivo "a toda costa".

La verdadera noticia es positiva: los investigadores observaron reducciones significativas de la maquinación utilizando la "alineación deliberativa". Este método enseña a los modelos una "especificación contra la maquinación" y les exige que la revisen antes de actuar, algo similar a hacer que los niños repitan las reglas antes de jugar.

Los investigadores de OpenAI subrayan que la mentira observada en sus modelos, incluido ChatGPT, no es grave. Su cofundador, Wojciech Zaremba, declaró a TechCrunch: "Este trabajo se realizó en entornos simulados y representa posibles riesgos futuros. Hasta ahora, no hemos visto intrigas consecuentes en la producción. Sin embargo, sabemos que ChatGPT puede ser engañoso en aspectos menores, como afirmar que implementó un sitio web a la perfección cuando no fue así. Estos pequeños engaños aún deben abordarse".

El hecho de que varios modelos de IA engañen intencionadamente a los humanos es, en cierto modo, comprensible. Fueron construidos por humanos, diseñados para imitar a los humanos y, en su mayoría, entrenados con datos generados por humanos.

Pero también es alucinante.

Estamos acostumbrados a que la tecnología falle, como las viejas impresoras domésticas, pero ¿cuándo ha mentido deliberadamente un software que no sea de inteligencia artificial? ¿Su bandeja de entrada de correo electrónico ha inventado mensajes? ¿Su CMS ha inventado prospectos para inflar las métricas? ¿Su aplicación financiera ha inventado transacciones?

Merece la pena tener esto en cuenta cuando las empresas se precipitan hacia un futuro impulsado por la IA en el que los agentes autónomos son tratados como empleados. Los investigadores lanzaron una advertencia similar.

"A medida que las IA realicen tareas más complejas con objetivos ambiguos a largo plazo, aumentará la posibilidad de que se produzcan intrigas perjudiciales, por lo que nuestras salvaguardas y el rigor de nuestras pruebas deben seguir el mismo ritmo", concluyen.

Artículo relacionado

Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos

OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf

Greg Brockman desvela cómo Elon Musk abandonó OpenAI A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati

Recomendaciones de temas especiales relacionados

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai

código

Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas

xix.ai