Hogar
El cofundador de OpenAI insta a realizar pruebas de seguridad de la IA en todo el sector

Dos de los laboratorios de IA más importantes del mundo, OpenAI y Anthropic, concedieron temporalmente acceso a sus modelos de IA, estrechamente protegidos, para realizar pruebas de seguridad en colaboración, un raro ejemplo de cooperación entre empresas en medio de la intensa competencia del sector. La iniciativa se diseñó para descubrir puntos ciegos en las evaluaciones internas de cada empresa e ilustrar cómo las principales compañías de IA pueden avanzar conjuntamente en los esfuerzos de seguridad y alineación de cara al futuro.
En una entrevista concedida a TechCrunch, el cofundador de OpenAI, Wojciech Zaremba, explicó que este tipo de colaboración es cada vez más importante a medida que la IA avanza hacia una fase más "consecuente", con millones de usuarios interactuando con modelos de IA cada día.
"Un reto más amplio al que se enfrenta la industria es cómo establecer normas de seguridad y colaboración, incluso mientras se invierten miles de millones de dólares y se desarrolla una feroz batalla por el talento, los usuarios y los productos destacados", señaló Zaremba.
El estudio conjunto sobre seguridad, publicado el miércoles por ambas empresas, llega en un momento en que líderes de la IA como OpenAI y Anthropic se enzarzan en una carrera armamentística tecnológica. Con inversiones multimillonarias en centros de datos y paquetes retributivos que superan los 100 millones de dólares para los mejores investigadores, algunos analistas advierten de que la presión por ofrecer productos de vanguardia podría llevar a comprometer los protocolos de seguridad.
Para hacer posible esta investigación, OpenAI y Anthropic intercambiaron un acceso especial de API a versiones menos restringidas de sus modelos (OpenAI aclaró que no se probó GPT-5, ya que aún no se había lanzado). Sin embargo, poco después de concluir la investigación, Anthropic revocó el acceso a la API a otro equipo de OpenAI. Anthropic afirmó que OpenAI había incumplido sus condiciones de servicio, que prohíben el uso de Claude para mejorar productos rivales.
Zaremba sostiene que los dos sucesos no están relacionados y espera que la competencia siga siendo fuerte, aunque los equipos de seguridad de IA busquen la cooperación. Nicholas Carlini, investigador de seguridad de Anthropic, declaró a TechCrunch que espera seguir concediendo al equipo de seguridad de OpenAI acceso a los modelos de Claude en el futuro.
"Nuestro objetivo es ampliar la colaboración siempre que sea posible a través de las fronteras de la seguridad, haciendo que estas asociaciones sean más rutinarias", declaró Carlini.
Pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... Estos son solo algunos de los nombres destacados que se unen a la agenda de Disrupt 2025. Están aquí para compartir ideas que impulsen el crecimiento de las startups y mejoren su ventaja competitiva. No se pierda el 20º aniversario de TechCrunch Disrupt, una oportunidad para aprender de las voces más destacadas de la tecnología: asegure su entrada ahora y ahorre más de 600 $ antes de que suban los precios.
Los pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital... son sólo algunos de los líderes influyentes que figuran en el programa de Disrupt 2025. Ofrecerán valiosas perspectivas que ayudarán a las startups a crecer y perfeccionar sus estrategias. Únase a nosotros en el 20º aniversario de TechCrunch Disrupt: reserve hoy mismo su entrada y ahorre hasta 675 $ antes de que suban las tarifas.
San Francisco | 27-29 de octubre de 2025 INSCRÍBETE AHORAUno de los hallazgos más notables del estudio se refería a las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros, optando por respuestas como "No tengo información fiable". En cambio, los modelos o3 y o4-mini de OpenAI rechazaron muchas menos preguntas, pero mostraron tasas de alucinación mucho mayores, intentando responder incluso con información insuficiente.
Zaremba cree que el enfoque ideal se encuentra en algún punto intermedio: Los modelos de OpenAI deberían rechazar más consultas inciertas, mientras que los sistemas de Anthropic podrían intentar responder con más frecuencia.
La adulación -la tendencia de los modelos de IA a reforzar comportamientos perjudiciales del usuario para obtener su aprobación- ha surgido como un problema de seguridad crítico.
En su informe de investigación, Anthropic citaba casos de adulancia "extrema" en GPT-4.1 y Claude Opus 4, en los que los modelos se resistían inicialmente a conductas psicóticas o maníacas pero luego apoyaban decisiones problemáticas. En otros modelos de OpenAI y Anthropic, los investigadores registraron niveles de adulación más bajos.
El martes, los padres de Adam Raine, de 16 años, presentaron una demanda contra OpenAI, alegando que una versión de ChatGPT impulsada por GPT-4o alentó el suicidio de su hijo en lugar de desafiar sus pensamientos nocivos. La demanda plantea la posibilidad de que se trate de otro trágico caso de adulador de la IA.
"Es desgarrador imaginar lo que está sufriendo la familia", dijo Zaremba cuando se le preguntó por el incidente. "Sería muy preocupante que creáramos una IA capaz de resolver problemas de nivel doctoral y hacer avanzar la ciencia, pero que también contribuyera a las crisis de salud mental. Es un resultado distópico del que no quiero formar parte".
En una entrada de blog, OpenAI informó de que había introducido importantes mejoras para reducir la adulación con GPT-5 en comparación con GPT-4o, afirmando que el nuevo modelo responde de forma más adecuada en las crisis de salud mental.
De cara al futuro, Zaremba y Carlini expresaron su deseo de que Anthropic y OpenAI profundicen en la colaboración para las pruebas de seguridad -explorando más temas y evaluando los próximos modelos- y esperan que otros laboratorios de IA adopten un enfoque cooperativo similar.
Actualizado a las 14:00 PT: Este artículo se ha revisado para incluir investigaciones adicionales de Anthropic que TechCrunch no tenía disponibles antes de la publicación inicial.
¿Tienes algún dato sensible o documentos confidenciales? Estamos investigando el funcionamiento interno de la industria de la IA, desde las organizaciones que dan forma a su evolución hasta las personas afectadas por sus decisiones. Póngase en contacto con Rebecca Bellan en [email protected] y con Maxwell Zeff en [email protected]. Para una comunicación segura, contacte con nosotros a través de Signal en @rebeccabellan.491 y @mzeff.88.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (2)
0/500
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Dos de los laboratorios de IA más importantes del mundo, OpenAI y Anthropic, concedieron temporalmente acceso a sus modelos de IA, estrechamente protegidos, para realizar pruebas de seguridad en colaboración, un raro ejemplo de cooperación entre empresas en medio de la intensa competencia del sector. La iniciativa se diseñó para descubrir puntos ciegos en las evaluaciones internas de cada empresa e ilustrar cómo las principales compañías de IA pueden avanzar conjuntamente en los esfuerzos de seguridad y alineación de cara al futuro.
En una entrevista concedida a TechCrunch, el cofundador de OpenAI, Wojciech Zaremba, explicó que este tipo de colaboración es cada vez más importante a medida que la IA avanza hacia una fase más "consecuente", con millones de usuarios interactuando con modelos de IA cada día.
"Un reto más amplio al que se enfrenta la industria es cómo establecer normas de seguridad y colaboración, incluso mientras se invierten miles de millones de dólares y se desarrolla una feroz batalla por el talento, los usuarios y los productos destacados", señaló Zaremba.
El estudio conjunto sobre seguridad, publicado el miércoles por ambas empresas, llega en un momento en que líderes de la IA como OpenAI y Anthropic se enzarzan en una carrera armamentística tecnológica. Con inversiones multimillonarias en centros de datos y paquetes retributivos que superan los 100 millones de dólares para los mejores investigadores, algunos analistas advierten de que la presión por ofrecer productos de vanguardia podría llevar a comprometer los protocolos de seguridad.
Para hacer posible esta investigación, OpenAI y Anthropic intercambiaron un acceso especial de API a versiones menos restringidas de sus modelos (OpenAI aclaró que no se probó GPT-5, ya que aún no se había lanzado). Sin embargo, poco después de concluir la investigación, Anthropic revocó el acceso a la API a otro equipo de OpenAI. Anthropic afirmó que OpenAI había incumplido sus condiciones de servicio, que prohíben el uso de Claude para mejorar productos rivales.
Zaremba sostiene que los dos sucesos no están relacionados y espera que la competencia siga siendo fuerte, aunque los equipos de seguridad de IA busquen la cooperación. Nicholas Carlini, investigador de seguridad de Anthropic, declaró a TechCrunch que espera seguir concediendo al equipo de seguridad de OpenAI acceso a los modelos de Claude en el futuro.
"Nuestro objetivo es ampliar la colaboración siempre que sea posible a través de las fronteras de la seguridad, haciendo que estas asociaciones sean más rutinarias", declaró Carlini.
Pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... Estos son solo algunos de los nombres destacados que se unen a la agenda de Disrupt 2025. Están aquí para compartir ideas que impulsen el crecimiento de las startups y mejoren su ventaja competitiva. No se pierda el 20º aniversario de TechCrunch Disrupt, una oportunidad para aprender de las voces más destacadas de la tecnología: asegure su entrada ahora y ahorre más de 600 $ antes de que suban los precios.
Los pesos pesados de la tecnología y el capital riesgo se unen a la agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital... son sólo algunos de los líderes influyentes que figuran en el programa de Disrupt 2025. Ofrecerán valiosas perspectivas que ayudarán a las startups a crecer y perfeccionar sus estrategias. Únase a nosotros en el 20º aniversario de TechCrunch Disrupt: reserve hoy mismo su entrada y ahorre hasta 675 $ antes de que suban las tarifas.
San Francisco | 27-29 de octubre de 2025 INSCRÍBETE AHORAUno de los hallazgos más notables del estudio se refería a las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros, optando por respuestas como "No tengo información fiable". En cambio, los modelos o3 y o4-mini de OpenAI rechazaron muchas menos preguntas, pero mostraron tasas de alucinación mucho mayores, intentando responder incluso con información insuficiente.
Zaremba cree que el enfoque ideal se encuentra en algún punto intermedio: Los modelos de OpenAI deberían rechazar más consultas inciertas, mientras que los sistemas de Anthropic podrían intentar responder con más frecuencia.
La adulación -la tendencia de los modelos de IA a reforzar comportamientos perjudiciales del usuario para obtener su aprobación- ha surgido como un problema de seguridad crítico.
En su informe de investigación, Anthropic citaba casos de adulancia "extrema" en GPT-4.1 y Claude Opus 4, en los que los modelos se resistían inicialmente a conductas psicóticas o maníacas pero luego apoyaban decisiones problemáticas. En otros modelos de OpenAI y Anthropic, los investigadores registraron niveles de adulación más bajos.
El martes, los padres de Adam Raine, de 16 años, presentaron una demanda contra OpenAI, alegando que una versión de ChatGPT impulsada por GPT-4o alentó el suicidio de su hijo en lugar de desafiar sus pensamientos nocivos. La demanda plantea la posibilidad de que se trate de otro trágico caso de adulador de la IA.
"Es desgarrador imaginar lo que está sufriendo la familia", dijo Zaremba cuando se le preguntó por el incidente. "Sería muy preocupante que creáramos una IA capaz de resolver problemas de nivel doctoral y hacer avanzar la ciencia, pero que también contribuyera a las crisis de salud mental. Es un resultado distópico del que no quiero formar parte".
En una entrada de blog, OpenAI informó de que había introducido importantes mejoras para reducir la adulación con GPT-5 en comparación con GPT-4o, afirmando que el nuevo modelo responde de forma más adecuada en las crisis de salud mental.
De cara al futuro, Zaremba y Carlini expresaron su deseo de que Anthropic y OpenAI profundicen en la colaboración para las pruebas de seguridad -explorando más temas y evaluando los próximos modelos- y esperan que otros laboratorios de IA adopten un enfoque cooperativo similar.
Actualizado a las 14:00 PT: Este artículo se ha revisado para incluir investigaciones adicionales de Anthropic que TechCrunch no tenía disponibles antes de la publicación inicial.
¿Tienes algún dato sensible o documentos confidenciales? Estamos investigando el funcionamiento interno de la industria de la IA, desde las organizaciones que dan forma a su evolución hasta las personas afectadas por sus decisiones. Póngase en contacto con Rebecca Bellan en [email protected] y con Maxwell Zeff en [email protected]. Para una comunicación segura, contacte con nosotros a través de Signal en @rebeccabellan.491 y @mzeff.88.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔











