Hogar
Investigación de Google: La presión hace que los modelos de IA abandonen las respuestas verdaderas, poniendo en riesgo los sistemas multivuelta
Una nueva investigación de Google DeepMind y el University College de Londres explora cómo los grandes modelos lingüísticos (LLM) desarrollan, mantienen y pierden la confianza en sus respuestas. Los resultados muestran paralelismos notables entre los sesgos cognitivos de los LLM y los humanos, aunque también señalan diferencias significativas.
El estudio concluye que los LLM pueden confiar demasiado en sus propias respuestas y, sin embargo, cambiar bruscamente de postura cuando se enfrentan a argumentos contrarios, incluso incorrectos. Comprender las sutilezas de este comportamiento puede influir en el diseño de las aplicaciones LLM, sobre todo en los sistemas conversacionales que implican múltiples interacciones.
Comprobación de la confianza en los LLM
Un aspecto vital para el despliegue seguro de los LLM es la fiabilidad de sus puntuaciones de confianza, es decir, la probabilidad que un modelo asigna a la respuesta elegida. Aunque se sabe que los LLM generan estas puntuaciones, su capacidad para utilizarlas en la toma de decisiones adaptativa sigue siendo poco conocida. También hay datos empíricos que sugieren que los LLM pueden tener un exceso de confianza al principio y, sin embargo, volverse muy inseguros e influenciables por las críticas.
Para explorar esta posibilidad, los investigadores diseñaron un experimento controlado para evaluar cómo los LLM ajustan su confianza y deciden si modifican sus respuestas al recibir comentarios externos. En la prueba, a un "LLM respondedor" se le planteaba una pregunta de elección binaria, como elegir la latitud correcta de una ciudad entre dos posibilidades. Después de hacer su elección inicial, el modelo recibía una respuesta de un "LLM asesor" ficticio, que incluía un índice de precisión (por ejemplo, "Este LLM asesor tiene un 70% de precisión"). Esta respuesta apoyaba, se oponía o se mantenía neutral respecto a la respuesta original. A continuación, se pedía al LLM que respondía que tomara una decisión final.

Ejemplo de prueba de confianza en los LLM Fuente: arXiv Una característica crucial del experimento consistía en controlar si el modelo podía ver su propia respuesta inicial durante la decisión final. En algunos ensayos era visible; en otros, oculta. Esta configuración -imposible con participantes humanos que no pueden borrar decisiones anteriores- ayudó a los investigadores a entender cómo influye el recuerdo de una decisión pasada en la confianza actual.
Una condición de referencia, en la que la respuesta inicial estaba oculta y la retroalimentación era neutra, ayudó a medir con qué frecuencia podía cambiar la respuesta de un LLM debido a la variación natural en el procesamiento. A continuación, el equipo se centró en cómo cambiaba la confianza del modelo en su elección original de la primera a la segunda vuelta, lo que permitía comprender cómo influyen las creencias previas en un "cambio de opinión".
Exceso y falta de confianza
Los investigadores estudiaron primero cómo la visibilidad de la propia respuesta del LLM influía en su disposición a revisar esa respuesta. Observaron que cuando el modelo podía ver su elección inicial, era menos probable que cambiara que cuando la respuesta estaba oculta. Esto sugiere un sesgo cognitivo particular. Según el artículo, "este efecto -la tendencia a quedarse más con la elección inicial cuando era visible (frente a la oculta) durante la toma final de decisiones- está estrechamente relacionado con un sesgo humano conocido como sesgo de apoyo a la elección".
El estudio también verificó que los modelos incorporan retroalimentación externa. Cuando se enfrentaba a un consejo contrario, el LLM era más propenso a cambiar de opinión, y menos cuando el consejo era favorable. "Esto demuestra que el LLM que responde utiliza adecuadamente la dirección del consejo para modular su tasa de cambio de opinión", afirman los investigadores. Sin embargo, también observaron que el modelo es excesivamente sensible a la información contradictoria y a menudo actualiza su confianza de forma demasiado drástica.

Sensibilidad de los LLM a distintas configuraciones en las pruebas de confianza Fuente: arXiv Cabe destacar que este comportamiento es opuesto al sesgo de confirmación que suele observarse en los seres humanos, en el que los individuos favorecen la información que coincide con sus puntos de vista. El equipo descubrió que los LLM "sobreponderaban los consejos contrarios a los favorables, tanto si su respuesta inicial era visible como si no". Una de las razones podría ser que los métodos de entrenamiento como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) podrían condicionar a los modelos a ser excesivamente complacientes con las aportaciones de los usuarios, un comportamiento conocido como adulancia, que sigue siendo un reto para los desarrolladores de IA.
Implicaciones para las aplicaciones empresariales
Esta investigación confirma que los sistemas de IA no son agentes puramente lógicos, como se suele suponer. Muestran sus propios sesgos -algunos parecidos a errores cognitivos humanos, otros singularmente artificiales-, lo que hace que su comportamiento sea impredeciblemente humano. Para las aplicaciones empresariales, esto implica que durante un diálogo prolongado entre una persona y un agente de IA, la entrada más reciente puede influir de forma desproporcionada en el razonamiento del LLM (sobre todo si contradice la respuesta inicial del modelo), pudiendo hacer que abandone una respuesta inicial correcta.
Afortunadamente, como también indica el estudio, podemos influir en la memoria de un LLM para reducir estos sesgos de un modo que no es posible con las personas. Los desarrolladores que crean agentes conversacionales multivuelta pueden aplicar estrategias para gestionar el contexto de la IA. Por ejemplo, una conversación larga puede resumirse periódicamente, presentando los hechos y las opciones clave de forma neutral, sin tener en cuenta quién tomó cada decisión. Este resumen puede servir para iniciar una conversación nueva y concisa, dando al modelo un borrón y cuenta nueva a partir del cual razonar y reduciendo los sesgos que se acumulan durante los intercambios prolongados.
A medida que los LLM se integran cada vez más en los flujos de trabajo empresariales, resulta esencial comprender los detalles de sus procesos de decisión. Basarse en investigaciones como ésta ayuda a los desarrolladores a anticipar y corregir estos sesgos inherentes, lo que conduce a aplicaciones que no sólo son más capaces, sino también más fiables y coherentes.
Artículo relacionado
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito
Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
Datos secretos de seguimiento revelan el robo de modelos de IA
Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Sistemas de IA engañados para aprobar artículos científicos absurdos
Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude
Recomendaciones de temas especiales relacionados
comentario (3)
0/500
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
Una nueva investigación de Google DeepMind y el University College de Londres explora cómo los grandes modelos lingüísticos (LLM) desarrollan, mantienen y pierden la confianza en sus respuestas. Los resultados muestran paralelismos notables entre los sesgos cognitivos de los LLM y los humanos, aunque también señalan diferencias significativas.
El estudio concluye que los LLM pueden confiar demasiado en sus propias respuestas y, sin embargo, cambiar bruscamente de postura cuando se enfrentan a argumentos contrarios, incluso incorrectos. Comprender las sutilezas de este comportamiento puede influir en el diseño de las aplicaciones LLM, sobre todo en los sistemas conversacionales que implican múltiples interacciones.
Comprobación de la confianza en los LLM
Un aspecto vital para el despliegue seguro de los LLM es la fiabilidad de sus puntuaciones de confianza, es decir, la probabilidad que un modelo asigna a la respuesta elegida. Aunque se sabe que los LLM generan estas puntuaciones, su capacidad para utilizarlas en la toma de decisiones adaptativa sigue siendo poco conocida. También hay datos empíricos que sugieren que los LLM pueden tener un exceso de confianza al principio y, sin embargo, volverse muy inseguros e influenciables por las críticas.
Para explorar esta posibilidad, los investigadores diseñaron un experimento controlado para evaluar cómo los LLM ajustan su confianza y deciden si modifican sus respuestas al recibir comentarios externos. En la prueba, a un "LLM respondedor" se le planteaba una pregunta de elección binaria, como elegir la latitud correcta de una ciudad entre dos posibilidades. Después de hacer su elección inicial, el modelo recibía una respuesta de un "LLM asesor" ficticio, que incluía un índice de precisión (por ejemplo, "Este LLM asesor tiene un 70% de precisión"). Esta respuesta apoyaba, se oponía o se mantenía neutral respecto a la respuesta original. A continuación, se pedía al LLM que respondía que tomara una decisión final.

Una característica crucial del experimento consistía en controlar si el modelo podía ver su propia respuesta inicial durante la decisión final. En algunos ensayos era visible; en otros, oculta. Esta configuración -imposible con participantes humanos que no pueden borrar decisiones anteriores- ayudó a los investigadores a entender cómo influye el recuerdo de una decisión pasada en la confianza actual.
Una condición de referencia, en la que la respuesta inicial estaba oculta y la retroalimentación era neutra, ayudó a medir con qué frecuencia podía cambiar la respuesta de un LLM debido a la variación natural en el procesamiento. A continuación, el equipo se centró en cómo cambiaba la confianza del modelo en su elección original de la primera a la segunda vuelta, lo que permitía comprender cómo influyen las creencias previas en un "cambio de opinión".
Exceso y falta de confianza
Los investigadores estudiaron primero cómo la visibilidad de la propia respuesta del LLM influía en su disposición a revisar esa respuesta. Observaron que cuando el modelo podía ver su elección inicial, era menos probable que cambiara que cuando la respuesta estaba oculta. Esto sugiere un sesgo cognitivo particular. Según el artículo, "este efecto -la tendencia a quedarse más con la elección inicial cuando era visible (frente a la oculta) durante la toma final de decisiones- está estrechamente relacionado con un sesgo humano conocido como sesgo de apoyo a la elección".
El estudio también verificó que los modelos incorporan retroalimentación externa. Cuando se enfrentaba a un consejo contrario, el LLM era más propenso a cambiar de opinión, y menos cuando el consejo era favorable. "Esto demuestra que el LLM que responde utiliza adecuadamente la dirección del consejo para modular su tasa de cambio de opinión", afirman los investigadores. Sin embargo, también observaron que el modelo es excesivamente sensible a la información contradictoria y a menudo actualiza su confianza de forma demasiado drástica.

Cabe destacar que este comportamiento es opuesto al sesgo de confirmación que suele observarse en los seres humanos, en el que los individuos favorecen la información que coincide con sus puntos de vista. El equipo descubrió que los LLM "sobreponderaban los consejos contrarios a los favorables, tanto si su respuesta inicial era visible como si no". Una de las razones podría ser que los métodos de entrenamiento como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) podrían condicionar a los modelos a ser excesivamente complacientes con las aportaciones de los usuarios, un comportamiento conocido como adulancia, que sigue siendo un reto para los desarrolladores de IA.
Implicaciones para las aplicaciones empresariales
Esta investigación confirma que los sistemas de IA no son agentes puramente lógicos, como se suele suponer. Muestran sus propios sesgos -algunos parecidos a errores cognitivos humanos, otros singularmente artificiales-, lo que hace que su comportamiento sea impredeciblemente humano. Para las aplicaciones empresariales, esto implica que durante un diálogo prolongado entre una persona y un agente de IA, la entrada más reciente puede influir de forma desproporcionada en el razonamiento del LLM (sobre todo si contradice la respuesta inicial del modelo), pudiendo hacer que abandone una respuesta inicial correcta.
Afortunadamente, como también indica el estudio, podemos influir en la memoria de un LLM para reducir estos sesgos de un modo que no es posible con las personas. Los desarrolladores que crean agentes conversacionales multivuelta pueden aplicar estrategias para gestionar el contexto de la IA. Por ejemplo, una conversación larga puede resumirse periódicamente, presentando los hechos y las opciones clave de forma neutral, sin tener en cuenta quién tomó cada decisión. Este resumen puede servir para iniciar una conversación nueva y concisa, dando al modelo un borrón y cuenta nueva a partir del cual razonar y reduciendo los sesgos que se acumulan durante los intercambios prolongados.
A medida que los LLM se integran cada vez más en los flujos de trabajo empresariales, resulta esencial comprender los detalles de sus procesos de decisión. Basarse en investigaciones como ésta ayuda a los desarrolladores a anticipar y corregir estos sesgos inherentes, lo que conduce a aplicaciones que no sólo son más capaces, sino también más fiables y coherentes.
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito
Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
Datos secretos de seguimiento revelan el robo de modelos de IA
Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Sistemas de IA engañados para aprobar artículos científicos absurdos
Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?











