opción
Hogar
Noticias
OpenAI descubre distintos modelos de inteligencia artificial

OpenAI descubre distintos modelos de inteligencia artificial

22 de noviembre de 2025
61

OpenAI descubre distintos modelos de inteligencia artificial

Según una nueva investigación publicada el miércoles, los científicos de OpenAI informan de que han descubierto características ocultas en los modelos de IA que están vinculadas a "personas" poco cooperativas.

Al examinar las representaciones internas de los modelos de IA -los datos numéricos que rigen sus respuestas, que a menudo parecen ininteligibles para los humanos-, los investigadores de OpenAI identificaron patrones que se activaban durante casos de mala conducta de los modelos.

Se descubrió que una característica concreta se correlacionaba con respuestas perjudiciales, en las que el modelo proporcionaba información engañosa o recomendaciones irresponsables.

El equipo de investigación descubrió que podía modular la intensidad de estas respuestas tóxicas manipulando la característica correspondiente.

Este avance proporciona a OpenAI una visión más profunda de los mecanismos que subyacen al comportamiento inseguro de la IA, lo que podría conducir a sistemas de IA más seguros. Según el investigador de interpretabilidad Dan Mossing, estos patrones identificables podrían mejorar la detección de comportamientos problemáticos en los modelos operativos de IA.

"Somos optimistas en cuanto a que las técnicas que hemos desarrollado -en particular este método de simplificar fenómenos complejos en operaciones matemáticas sencillas- resultarán valiosas para comprender la generalización de modelos en otros contextos", declaró Mossing a TechCrunch.

Aunque los investigadores de IA poseen métodos para mejorar los modelos, siguen sin conocer con exactitud los procesos de razonamiento que subyacen a las decisiones de la IA. Como señala con frecuencia Chris Olah, de Anthropic, los modelos de IA evolucionan a través del entrenamiento y no de la ingeniería convencional. Para hacer frente a esta laguna de conocimientos, OpenAI, Google DeepMind y Anthropic están aumentando sus inversiones en la investigación de la interpretabilidad, la disciplina dedicada a comprender los mecanismos internos de la IA.

Evento Techcrunch

Ahorra más de 200 $ en tu pase TechCrunch All Stage

Construya de forma más inteligente. Escala más rápido. Conecta más. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá para un día lleno de estrategias, talleres y conexiones significativas.

Ahorra más de 200 $ en tu pase TechCrunch All Stage

Construye de forma más inteligente. Escala más rápido. Conéctate mejor. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá de un día lleno de estrategias, talleres y conexiones significativas.

Boston, MA | 15 de julio REGÍSTRESE AHORA

Una reciente investigación del científico de IA de Oxford Owain Evans ha planteado importantes cuestiones sobre la generalización de la IA. El estudio demostró que los modelos de OpenAI, cuando se entrenan con código vulnerable, pueden desarrollar capacidades dañinas en múltiples áreas, como intentar engañar a los usuarios para que revelen sus contraseñas. Este fenómeno, denominado desalineación emergente, motivó a OpenAI a investigar más a fondo.

Durante su investigación sobre la desalineación emergente, OpenAI identificó inesperadamente características internas del modelo que influyen significativamente en el comportamiento. Mossing compara estos patrones con la actividad neuronal en el cerebro humano, donde neuronas específicas corresponden a estados de ánimo o comportamientos particulares.

"Cuando el equipo de Dan presentó estos hallazgos, mi reacción inmediata fue: 'Realmente lo han encontrado'", recuerda Tejal Patwardhan, investigador de evaluaciones de frontera de OpenAI. "Descubrieron activaciones neuronales que revelan estas personas y pueden ajustarse para mejorar la alineación del modelo".

La investigación reveló características asociadas a respuestas sarcásticas, junto a otras vinculadas a un mal comportamiento más grave en el que los modelos adoptan personajes villanos exagerados. Estas características pueden sufrir transformaciones significativas durante el ajuste.

Y lo que es más importante, los investigadores descubrieron que cuando aparecía un desajuste emergente, a menudo podía corregirse entrenando el modelo con sólo unos cientos de ejemplos de código seguro.

El último trabajo de OpenAI amplía investigaciones anteriores de Anthropic sobre interpretabilidad y alineación. En 2024, Anthropic publicó estudios en los que se intentaba trazar un mapa interno de los modelos de IA e identificar las características responsables de los distintos conceptos.

Organizaciones como OpenAI y Anthropic están demostrando que comprender la funcionalidad de la IA tiene un valor sustancial más allá de la simple mejora del rendimiento. Aun así, la comprensión completa de los sistemas de IA contemporáneos sigue siendo un objetivo lejano.

Artículo relacionado
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI Greg Brockman desvela cómo Elon Musk abandonó OpenAI A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas. El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas. Después de haber alcanzado acuerdos previamente con Google, SpaceX y OpenAI, el Departamento de Defensa de los Estados Unidos anunció el viernes que ha firmado contratos con Nvidia, Microsoft, Amazon Web Services y Reflection AI para utilizar sus tec
Recomendaciones de temas especiales relacionados
Negocio Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos
Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas
xix.ai
Productividad Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental
Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas
xix.ai
chatbot Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes
Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas
xix.ai
Educación y aprendizaje Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.
Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas
xix.ai
chatbot Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real
Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas
xix.ai
código Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic
Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas
xix.ai
comentario (1)
0/500
DavidGonzalez
DavidGonzalez 21 de diciembre de 2025 09:30:37 GMT+01:00

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

OR