OpenAI descubre distintos modelos de inteligencia artificial

Según una nueva investigación publicada el miércoles, los científicos de OpenAI informan de que han descubierto características ocultas en los modelos de IA que están vinculadas a "personas" poco cooperativas.
Al examinar las representaciones internas de los modelos de IA -los datos numéricos que rigen sus respuestas, que a menudo parecen ininteligibles para los humanos-, los investigadores de OpenAI identificaron patrones que se activaban durante casos de mala conducta de los modelos.
Se descubrió que una característica concreta se correlacionaba con respuestas perjudiciales, en las que el modelo proporcionaba información engañosa o recomendaciones irresponsables.
El equipo de investigación descubrió que podía modular la intensidad de estas respuestas tóxicas manipulando la característica correspondiente.
Este avance proporciona a OpenAI una visión más profunda de los mecanismos que subyacen al comportamiento inseguro de la IA, lo que podría conducir a sistemas de IA más seguros. Según el investigador de interpretabilidad Dan Mossing, estos patrones identificables podrían mejorar la detección de comportamientos problemáticos en los modelos operativos de IA.
"Somos optimistas en cuanto a que las técnicas que hemos desarrollado -en particular este método de simplificar fenómenos complejos en operaciones matemáticas sencillas- resultarán valiosas para comprender la generalización de modelos en otros contextos", declaró Mossing a TechCrunch.
Aunque los investigadores de IA poseen métodos para mejorar los modelos, siguen sin conocer con exactitud los procesos de razonamiento que subyacen a las decisiones de la IA. Como señala con frecuencia Chris Olah, de Anthropic, los modelos de IA evolucionan a través del entrenamiento y no de la ingeniería convencional. Para hacer frente a esta laguna de conocimientos, OpenAI, Google DeepMind y Anthropic están aumentando sus inversiones en la investigación de la interpretabilidad, la disciplina dedicada a comprender los mecanismos internos de la IA.
Evento TechcrunchAhorra más de 200 $ en tu pase TechCrunch All Stage
Construya de forma más inteligente. Escala más rápido. Conecta más. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá para un día lleno de estrategias, talleres y conexiones significativas.
Ahorra más de 200 $ en tu pase TechCrunch All Stage
Construye de forma más inteligente. Escala más rápido. Conéctate mejor. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá de un día lleno de estrategias, talleres y conexiones significativas.
Boston, MA | 15 de julio REGÍSTRESE AHORAUna reciente investigación del científico de IA de Oxford Owain Evans ha planteado importantes cuestiones sobre la generalización de la IA. El estudio demostró que los modelos de OpenAI, cuando se entrenan con código vulnerable, pueden desarrollar capacidades dañinas en múltiples áreas, como intentar engañar a los usuarios para que revelen sus contraseñas. Este fenómeno, denominado desalineación emergente, motivó a OpenAI a investigar más a fondo.
Durante su investigación sobre la desalineación emergente, OpenAI identificó inesperadamente características internas del modelo que influyen significativamente en el comportamiento. Mossing compara estos patrones con la actividad neuronal en el cerebro humano, donde neuronas específicas corresponden a estados de ánimo o comportamientos particulares.
"Cuando el equipo de Dan presentó estos hallazgos, mi reacción inmediata fue: 'Realmente lo han encontrado'", recuerda Tejal Patwardhan, investigador de evaluaciones de frontera de OpenAI. "Descubrieron activaciones neuronales que revelan estas personas y pueden ajustarse para mejorar la alineación del modelo".
La investigación reveló características asociadas a respuestas sarcásticas, junto a otras vinculadas a un mal comportamiento más grave en el que los modelos adoptan personajes villanos exagerados. Estas características pueden sufrir transformaciones significativas durante el ajuste.
Y lo que es más importante, los investigadores descubrieron que cuando aparecía un desajuste emergente, a menudo podía corregirse entrenando el modelo con sólo unos cientos de ejemplos de código seguro.
El último trabajo de OpenAI amplía investigaciones anteriores de Anthropic sobre interpretabilidad y alineación. En 2024, Anthropic publicó estudios en los que se intentaba trazar un mapa interno de los modelos de IA e identificar las características responsables de los distintos conceptos.
Organizaciones como OpenAI y Anthropic están demostrando que comprender la funcionalidad de la IA tiene un valor sustancial más allá de la simple mejora del rendimiento. Aun así, la comprensión completa de los sistemas de IA contemporáneos sigue siendo un objetivo lejano.
Artículo relacionado
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas.
Después de haber alcanzado acuerdos previamente con Google, SpaceX y OpenAI, el Departamento de Defensa de los Estados Unidos anunció el viernes que ha firmado contratos con Nvidia, Microsoft, Amazon Web Services y Reflection AI para utilizar sus tec
Recomendaciones de temas especiales relacionados
comentario (1)
0/500

Según una nueva investigación publicada el miércoles, los científicos de OpenAI informan de que han descubierto características ocultas en los modelos de IA que están vinculadas a "personas" poco cooperativas.
Al examinar las representaciones internas de los modelos de IA -los datos numéricos que rigen sus respuestas, que a menudo parecen ininteligibles para los humanos-, los investigadores de OpenAI identificaron patrones que se activaban durante casos de mala conducta de los modelos.
Se descubrió que una característica concreta se correlacionaba con respuestas perjudiciales, en las que el modelo proporcionaba información engañosa o recomendaciones irresponsables.
El equipo de investigación descubrió que podía modular la intensidad de estas respuestas tóxicas manipulando la característica correspondiente.
Este avance proporciona a OpenAI una visión más profunda de los mecanismos que subyacen al comportamiento inseguro de la IA, lo que podría conducir a sistemas de IA más seguros. Según el investigador de interpretabilidad Dan Mossing, estos patrones identificables podrían mejorar la detección de comportamientos problemáticos en los modelos operativos de IA.
"Somos optimistas en cuanto a que las técnicas que hemos desarrollado -en particular este método de simplificar fenómenos complejos en operaciones matemáticas sencillas- resultarán valiosas para comprender la generalización de modelos en otros contextos", declaró Mossing a TechCrunch.
Aunque los investigadores de IA poseen métodos para mejorar los modelos, siguen sin conocer con exactitud los procesos de razonamiento que subyacen a las decisiones de la IA. Como señala con frecuencia Chris Olah, de Anthropic, los modelos de IA evolucionan a través del entrenamiento y no de la ingeniería convencional. Para hacer frente a esta laguna de conocimientos, OpenAI, Google DeepMind y Anthropic están aumentando sus inversiones en la investigación de la interpretabilidad, la disciplina dedicada a comprender los mecanismos internos de la IA.
Evento TechcrunchAhorra más de 200 $ en tu pase TechCrunch All Stage
Construya de forma más inteligente. Escala más rápido. Conecta más. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá para un día lleno de estrategias, talleres y conexiones significativas.
Ahorra más de 200 $ en tu pase TechCrunch All Stage
Construye de forma más inteligente. Escala más rápido. Conéctate mejor. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC, y más allá de un día lleno de estrategias, talleres y conexiones significativas.
Boston, MA | 15 de julio REGÍSTRESE AHORAUna reciente investigación del científico de IA de Oxford Owain Evans ha planteado importantes cuestiones sobre la generalización de la IA. El estudio demostró que los modelos de OpenAI, cuando se entrenan con código vulnerable, pueden desarrollar capacidades dañinas en múltiples áreas, como intentar engañar a los usuarios para que revelen sus contraseñas. Este fenómeno, denominado desalineación emergente, motivó a OpenAI a investigar más a fondo.
Durante su investigación sobre la desalineación emergente, OpenAI identificó inesperadamente características internas del modelo que influyen significativamente en el comportamiento. Mossing compara estos patrones con la actividad neuronal en el cerebro humano, donde neuronas específicas corresponden a estados de ánimo o comportamientos particulares.
"Cuando el equipo de Dan presentó estos hallazgos, mi reacción inmediata fue: 'Realmente lo han encontrado'", recuerda Tejal Patwardhan, investigador de evaluaciones de frontera de OpenAI. "Descubrieron activaciones neuronales que revelan estas personas y pueden ajustarse para mejorar la alineación del modelo".
La investigación reveló características asociadas a respuestas sarcásticas, junto a otras vinculadas a un mal comportamiento más grave en el que los modelos adoptan personajes villanos exagerados. Estas características pueden sufrir transformaciones significativas durante el ajuste.
Y lo que es más importante, los investigadores descubrieron que cuando aparecía un desajuste emergente, a menudo podía corregirse entrenando el modelo con sólo unos cientos de ejemplos de código seguro.
El último trabajo de OpenAI amplía investigaciones anteriores de Anthropic sobre interpretabilidad y alineación. En 2024, Anthropic publicó estudios en los que se intentaba trazar un mapa interno de los modelos de IA e identificar las características responsables de los distintos conceptos.
Organizaciones como OpenAI y Anthropic están demostrando que comprender la funcionalidad de la IA tiene un valor sustancial más allá de la simple mejora del rendimiento. Aun así, la comprensión completa de los sistemas de IA contemporáneos sigue siendo un objetivo lejano.
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
El Pentágono firma acuerdos con Nvidia, Microsoft y AWS para implementar inteligencia artificial en redes clasificadas.
Después de haber alcanzado acuerdos previamente con Google, SpaceX y OpenAI, el Departamento de Defensa de los Estados Unidos anunció el viernes que ha firmado contratos con Nvidia, Microsoft, Amazon Web Services y Reflection AI para utilizar sus tec





Hogar






