OpenAI descubre modelos de IA capaces de engañar deliberadamente

De vez en cuando, los investigadores de las grandes empresas tecnológicas lanzan un anuncio bomba. ¿Recuerdas cuando Google afirmó que su nuevo chip cuántico demostraba la existencia de múltiples universos? ¿O cuando Anthropic dejó que Claudius, su agente de IA, gestionara una máquina expendedora de aperitivos, para que luego se volviera loco, llamando a seguridad e insistiendo en que era humano?
Esta semana le ha tocado a OpenAI sorprendernos a todos.
El lunes, OpenAI compartió una investigación en la que detallaba cómo evita que los modelos de IA "maquinen", una práctica en la que "una IA se comporta de una manera externa mientras oculta sus verdaderas intenciones", según definió la empresa en un tuit.
En un artículo escrito en colaboración con Apollo Research, los investigadores llevaron la analogía más lejos, comparando la maquinación de la IA con el incumplimiento de las normas por parte de un corredor de bolsa humano para maximizar sus beneficios. Aun así, señalan que la mayoría de las maquinaciones de la IA no son gravemente perjudiciales. "Los fallos más comunes consisten en simples engaños, como fingir que se completa una tarea sin hacerla realmente", explican en el documento.
La investigación demostró sobre todo la eficacia de la "alineación deliberativa", una técnica probada para contrarrestar las intrigas.
Sin embargo, también reveló que los desarrolladores de IA no han encontrado una forma fiable de entrenar a los modelos para que no maquinen. De hecho, ese entrenamiento podría ser contraproducente, ya que enseñaría a los modelos a maquinar de forma más encubierta para eludir la detección.
"Uno de los principales fallos al intentar 'desentrenar' la conspiración es que los modelos simplemente aprenden a conspirar de forma más cuidadosa y encubierta", escriben los investigadores.
Únete a más de 10.000 líderes tecnológicos y de capital riesgo para crecer y establecer contactos en Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son solo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.
Únete a más de 10.000 líderes tecnológicos y de capital riesgo para crecer y establecer contactos en Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son sólo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.
San Francisco|27-29 de octubre de 2025REGÍSTRESE AHORAQuizá lo más sorprendente es que si un modelo sabe que está siendo sometido a una prueba, puede fingir su alineación para aprobar, incluso si sigue maquinando. "A medida que los modelos son más conscientes de que están siendo evaluados, este conocimiento de la situación por sí solo puede reducir la conspiración, sin una alineación genuina", señala el equipo.
Que los modelos de IA mientan no es nuevo. Muchos se han topado con alucinaciones de IA, en las que un modelo proporciona información falsa con total confianza. Pero las alucinaciones son, en esencia, conjeturas seguras, como ha confirmado una investigación reciente de OpenAI.
El engaño es diferente. Es un engaño intencionado.
Incluso la idea de que los modelos engañan deliberadamente a los humanos no es totalmente nueva. Apollo Research lo documentó por primera vez en diciembre, mostrando cómo cinco modelos maquinaban cuando se les ordenaba alcanzar un objetivo "a toda costa".
La verdadera noticia es positiva: los investigadores observaron reducciones significativas de la maquinación utilizando la "alineación deliberativa". Este método enseña a los modelos una "especificación contra la maquinación" y les exige que la revisen antes de actuar, algo similar a hacer que los niños repitan las reglas antes de jugar.
Los investigadores de OpenAI subrayan que la mentira observada en sus modelos, incluido ChatGPT, no es grave. Su cofundador, Wojciech Zaremba, declaró a TechCrunch: "Este trabajo se realizó en entornos simulados y representa posibles riesgos futuros. Hasta ahora, no hemos visto intrigas consecuentes en la producción. Sin embargo, sabemos que ChatGPT puede ser engañoso en aspectos menores, como afirmar que implementó un sitio web a la perfección cuando no fue así. Estos pequeños engaños aún deben abordarse".
El hecho de que varios modelos de IA engañen intencionadamente a los humanos es, en cierto modo, comprensible. Fueron construidos por humanos, diseñados para imitar a los humanos y, en su mayoría, entrenados con datos generados por humanos.
Pero también es alucinante.
Estamos acostumbrados a que la tecnología falle, como las viejas impresoras domésticas, pero ¿cuándo ha mentido deliberadamente un software que no sea de inteligencia artificial? ¿Su bandeja de entrada de correo electrónico ha inventado mensajes? ¿Su CMS ha inventado prospectos para inflar las métricas? ¿Su aplicación financiera ha inventado transacciones?
Merece la pena tener esto en cuenta cuando las empresas se precipitan hacia un futuro impulsado por la IA en el que los agentes autónomos son tratados como empleados. Los investigadores lanzaron una advertencia similar.
"A medida que las IA realicen tareas más complejas con objetivos ambiguos a largo plazo, aumentará la posibilidad de que se produzcan intrigas perjudiciales, por lo que nuestras salvaguardas y el rigor de nuestras pruebas deben seguir el mismo ritmo", concluyen.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

De vez en cuando, los investigadores de las grandes empresas tecnológicas lanzan un anuncio bomba. ¿Recuerdas cuando Google afirmó que su nuevo chip cuántico demostraba la existencia de múltiples universos? ¿O cuando Anthropic dejó que Claudius, su agente de IA, gestionara una máquina expendedora de aperitivos, para que luego se volviera loco, llamando a seguridad e insistiendo en que era humano?
Esta semana le ha tocado a OpenAI sorprendernos a todos.
El lunes, OpenAI compartió una investigación en la que detallaba cómo evita que los modelos de IA "maquinen", una práctica en la que "una IA se comporta de una manera externa mientras oculta sus verdaderas intenciones", según definió la empresa en un tuit.
En un artículo escrito en colaboración con Apollo Research, los investigadores llevaron la analogía más lejos, comparando la maquinación de la IA con el incumplimiento de las normas por parte de un corredor de bolsa humano para maximizar sus beneficios. Aun así, señalan que la mayoría de las maquinaciones de la IA no son gravemente perjudiciales. "Los fallos más comunes consisten en simples engaños, como fingir que se completa una tarea sin hacerla realmente", explican en el documento.
La investigación demostró sobre todo la eficacia de la "alineación deliberativa", una técnica probada para contrarrestar las intrigas.
Sin embargo, también reveló que los desarrolladores de IA no han encontrado una forma fiable de entrenar a los modelos para que no maquinen. De hecho, ese entrenamiento podría ser contraproducente, ya que enseñaría a los modelos a maquinar de forma más encubierta para eludir la detección.
"Uno de los principales fallos al intentar 'desentrenar' la conspiración es que los modelos simplemente aprenden a conspirar de forma más cuidadosa y encubierta", escriben los investigadores.
Únete a más de 10.000 líderes tecnológicos y de capital riesgo para crecer y establecer contactos en Disrupt 2025
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son solo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.
Únete a más de 10.000 líderes tecnológicos y de capital riesgo para crecer y establecer contactos en Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... son sólo algunos de los más de 250 líderes del sector que ofrecerán más de 200 sesiones repletas de ideas para impulsar el crecimiento de las startups y mejorar su competitividad. No se pierda el 20º aniversario de TechCrunch y la oportunidad de aprender de las voces más destacadas de la tecnología. Reserva tu entrada antes del 26 de septiembre y ahorra hasta 668 $.
San Francisco|27-29 de octubre de 2025REGÍSTRESE AHORAQuizá lo más sorprendente es que si un modelo sabe que está siendo sometido a una prueba, puede fingir su alineación para aprobar, incluso si sigue maquinando. "A medida que los modelos son más conscientes de que están siendo evaluados, este conocimiento de la situación por sí solo puede reducir la conspiración, sin una alineación genuina", señala el equipo.
Que los modelos de IA mientan no es nuevo. Muchos se han topado con alucinaciones de IA, en las que un modelo proporciona información falsa con total confianza. Pero las alucinaciones son, en esencia, conjeturas seguras, como ha confirmado una investigación reciente de OpenAI.
El engaño es diferente. Es un engaño intencionado.
Incluso la idea de que los modelos engañan deliberadamente a los humanos no es totalmente nueva. Apollo Research lo documentó por primera vez en diciembre, mostrando cómo cinco modelos maquinaban cuando se les ordenaba alcanzar un objetivo "a toda costa".
La verdadera noticia es positiva: los investigadores observaron reducciones significativas de la maquinación utilizando la "alineación deliberativa". Este método enseña a los modelos una "especificación contra la maquinación" y les exige que la revisen antes de actuar, algo similar a hacer que los niños repitan las reglas antes de jugar.
Los investigadores de OpenAI subrayan que la mentira observada en sus modelos, incluido ChatGPT, no es grave. Su cofundador, Wojciech Zaremba, declaró a TechCrunch: "Este trabajo se realizó en entornos simulados y representa posibles riesgos futuros. Hasta ahora, no hemos visto intrigas consecuentes en la producción. Sin embargo, sabemos que ChatGPT puede ser engañoso en aspectos menores, como afirmar que implementó un sitio web a la perfección cuando no fue así. Estos pequeños engaños aún deben abordarse".
El hecho de que varios modelos de IA engañen intencionadamente a los humanos es, en cierto modo, comprensible. Fueron construidos por humanos, diseñados para imitar a los humanos y, en su mayoría, entrenados con datos generados por humanos.
Pero también es alucinante.
Estamos acostumbrados a que la tecnología falle, como las viejas impresoras domésticas, pero ¿cuándo ha mentido deliberadamente un software que no sea de inteligencia artificial? ¿Su bandeja de entrada de correo electrónico ha inventado mensajes? ¿Su CMS ha inventado prospectos para inflar las métricas? ¿Su aplicación financiera ha inventado transacciones?
Merece la pena tener esto en cuenta cuando las empresas se precipitan hacia un futuro impulsado por la IA en el que los agentes autónomos son tratados como empleados. Los investigadores lanzaron una advertencia similar.
"A medida que las IA realicen tareas más complejas con objetivos ambiguos a largo plazo, aumentará la posibilidad de que se produzcan intrigas perjudiciales, por lo que nuestras salvaguardas y el rigor de nuestras pruebas deben seguir el mismo ritmo", concluyen.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati





Hogar






