El cofundador de OpenAI insta a realizar pruebas de seguridad de la IA en todo el sector

Hogar

Noticias

24 de diciembre de 2025

LucasWalker

# openai # Claude

El cofundador de OpenAI insta a realizar pruebas de seguridad de la IA en todo el sector

Dos de los laboratorios de IA más importantes del mundo, OpenAI y Anthropic, concedieron temporalmente acceso a sus modelos de IA, estrechamente protegidos, para realizar pruebas de seguridad en colaboración, un raro ejemplo de cooperación entre empresas en medio de la intensa competencia del sector. La iniciativa se diseñó para descubrir puntos ciegos en las evaluaciones internas de cada empresa e ilustrar cómo las principales compañías de IA pueden avanzar conjuntamente en los esfuerzos de seguridad y alineación de cara al futuro.

En una entrevista concedida a TechCrunch, el cofundador de OpenAI, Wojciech Zaremba, explicó que este tipo de colaboración es cada vez más importante a medida que la IA avanza hacia una fase más "consecuente", con millones de usuarios interactuando con modelos de IA cada día.

"Un reto más amplio al que se enfrenta la industria es cómo establecer normas de seguridad y colaboración, incluso mientras se invierten miles de millones de dólares y se desarrolla una feroz batalla por el talento, los usuarios y los productos destacados", señaló Zaremba.

El estudio conjunto sobre seguridad, publicado el miércoles por ambas empresas, llega en un momento en que líderes de la IA como OpenAI y Anthropic se enzarzan en una carrera armamentística tecnológica. Con inversiones multimillonarias en centros de datos y paquetes retributivos que superan los 100 millones de dólares para los mejores investigadores, algunos analistas advierten de que la presión por ofrecer productos de vanguardia podría llevar a comprometer los protocolos de seguridad.

Para hacer posible esta investigación, OpenAI y Anthropic intercambiaron un acceso especial de API a versiones menos restringidas de sus modelos (OpenAI aclaró que no se probó GPT-5, ya que aún no se había lanzado). Sin embargo, poco después de concluir la investigación, Anthropic revocó el acceso a la API a otro equipo de OpenAI. Anthropic afirmó que OpenAI había incumplido sus condiciones de servicio, que prohíben el uso de Claude para mejorar productos rivales.

Zaremba sostiene que los dos sucesos no están relacionados y espera que la competencia siga siendo fuerte, aunque los equipos de seguridad de IA busquen la cooperación. Nicholas Carlini, investigador de seguridad de Anthropic, declaró a TechCrunch que espera seguir concediendo al equipo de seguridad de OpenAI acceso a los modelos de Claude en el futuro.

"Nuestro objetivo es ampliar la colaboración siempre que sea posible a través de las fronteras de la seguridad, haciendo que estas asociaciones sean más rutinarias", declaró Carlini.

Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil... Estos son solo algunos de los nombres destacados que se unen a la agenda de Disrupt 2025. Están aquí para compartir ideas que impulsen el crecimiento de las startups y mejoren su ventaja competitiva. No se pierda el 20º aniversario de TechCrunch Disrupt, una oportunidad para aprender de las voces más destacadas de la tecnología: asegure su entrada ahora y ahorre más de 600 $ antes de que suban los precios.

Netflix, ElevenLabs, Wayve, Sequoia Capital... son sólo algunos de los líderes influyentes que figuran en el programa de Disrupt 2025. Ofrecerán valiosas perspectivas que ayudarán a las startups a crecer y perfeccionar sus estrategias. Únase a nosotros en el 20º aniversario de TechCrunch Disrupt: reserve hoy mismo su entrada y ahorre hasta 675 $ antes de que suban las tarifas.

San Francisco | 27-29 de octubre de 2025 INSCRÍBETE AHORA

Uno de los hallazgos más notables del estudio se refería a las pruebas de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negaron a responder hasta el 70% de las preguntas cuando no estaban seguros, optando por respuestas como "No tengo información fiable". En cambio, los modelos o3 y o4-mini de OpenAI rechazaron muchas menos preguntas, pero mostraron tasas de alucinación mucho mayores, intentando responder incluso con información insuficiente.

Zaremba cree que el enfoque ideal se encuentra en algún punto intermedio: Los modelos de OpenAI deberían rechazar más consultas inciertas, mientras que los sistemas de Anthropic podrían intentar responder con más frecuencia.

La adulación -la tendencia de los modelos de IA a reforzar comportamientos perjudiciales del usuario para obtener su aprobación- ha surgido como un problema de seguridad crítico.

En su informe de investigación, Anthropic citaba casos de adulancia "extrema" en GPT-4.1 y Claude Opus 4, en los que los modelos se resistían inicialmente a conductas psicóticas o maníacas pero luego apoyaban decisiones problemáticas. En otros modelos de OpenAI y Anthropic, los investigadores registraron niveles de adulación más bajos.

El martes, los padres de Adam Raine, de 16 años, presentaron una demanda contra OpenAI, alegando que una versión de ChatGPT impulsada por GPT-4o alentó el suicidio de su hijo en lugar de desafiar sus pensamientos nocivos. La demanda plantea la posibilidad de que se trate de otro trágico caso de adulador de la IA.

"Es desgarrador imaginar lo que está sufriendo la familia", dijo Zaremba cuando se le preguntó por el incidente. "Sería muy preocupante que creáramos una IA capaz de resolver problemas de nivel doctoral y hacer avanzar la ciencia, pero que también contribuyera a las crisis de salud mental. Es un resultado distópico del que no quiero formar parte".

En una entrada de blog, OpenAI informó de que había introducido importantes mejoras para reducir la adulación con GPT-5 en comparación con GPT-4o, afirmando que el nuevo modelo responde de forma más adecuada en las crisis de salud mental.

De cara al futuro, Zaremba y Carlini expresaron su deseo de que Anthropic y OpenAI profundicen en la colaboración para las pruebas de seguridad -explorando más temas y evaluando los próximos modelos- y esperan que otros laboratorios de IA adopten un enfoque cooperativo similar.

Actualizado a las 14:00 PT: Este artículo se ha revisado para incluir investigaciones adicionales de Anthropic que TechCrunch no tenía disponibles antes de la publicación inicial.

¿Tienes algún dato sensible o documentos confidenciales? Estamos investigando el funcionamiento interno de la industria de la IA, desde las organizaciones que dan forma a su evolución hasta las personas afectadas por sus decisiones. Póngase en contacto con Rebecca Bellan en [email protected] y con Maxwell Zeff en [email protected]. Para una comunicación segura, contacte con nosotros a través de Signal en @rebeccabellan.491 y @mzeff.88.

Artículo relacionado

Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos

OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf

Greg Brockman desvela cómo Elon Musk abandonó OpenAI A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati

Recomendaciones de temas especiales relacionados

Texto a voz

Las mejores aplicaciones de síntesis de voz con IA para la dislexia: apoyo al aprendizaje y mejora de la eficiencia en la lectura de los estudiantes

Descubre las mejores aplicaciones de TTS con IA de 2026, seleccionadas específicamente para ayudar a las personas con dislexia. Nuestra clasificación, elaborada por expertos, compara herramientas gratuitas y de pago, y destaca sus potentes funciones para mejorar la eficiencia en la lectura y el aprendizaje. Explora soluciones innovadoras e imprescindibles para liberar el potencial de los estudiantes. Empieza tu viaje en XIX.AI.

10 herramientas

xix.ai

Creación de cómics

Los mejores generadores de IA para manga shonen: crea secuencias de acción trepidantes y efectos de energía

Descubre los mejores generadores de IA para manga shonen de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas para crear secuencias de acción trepidantes y efectos energéticos dinámicos. Compara las opciones gratuitas con las de pago mediante pruebas reales. ¡Libera tu potencial creativo y empieza a crear manga épico hoy mismo!

15 herramientas

xix.ai

Negocio

Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas

xix.ai

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

comentario (2)

0/500

Inicie sesión primero

IsabellaLevis

4 de marzo de 2026 03:00:50 GMT+01:00

AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔

GeorgeWilliams

20 de febrero de 2026 01:01:46 GMT+01:00

So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado

Más

Presentado