Investigación de Google: La presión hace que los modelos de IA abandonen las respuestas verdaderas, poniendo en riesgo los sistemas multivuelta

Hogar

Noticias

27 de noviembre de 2025

JosephGreen

150

# research # deepmind # LLMs

Una nueva investigación de Google DeepMind y el University College de Londres explora cómo los grandes modelos lingüísticos (LLM) desarrollan, mantienen y pierden la confianza en sus respuestas. Los resultados muestran paralelismos notables entre los sesgos cognitivos de los LLM y los humanos, aunque también señalan diferencias significativas.

El estudio concluye que los LLM pueden confiar demasiado en sus propias respuestas y, sin embargo, cambiar bruscamente de postura cuando se enfrentan a argumentos contrarios, incluso incorrectos. Comprender las sutilezas de este comportamiento puede influir en el diseño de las aplicaciones LLM, sobre todo en los sistemas conversacionales que implican múltiples interacciones.

Comprobación de la confianza en los LLM

Un aspecto vital para el despliegue seguro de los LLM es la fiabilidad de sus puntuaciones de confianza, es decir, la probabilidad que un modelo asigna a la respuesta elegida. Aunque se sabe que los LLM generan estas puntuaciones, su capacidad para utilizarlas en la toma de decisiones adaptativa sigue siendo poco conocida. También hay datos empíricos que sugieren que los LLM pueden tener un exceso de confianza al principio y, sin embargo, volverse muy inseguros e influenciables por las críticas.

Para explorar esta posibilidad, los investigadores diseñaron un experimento controlado para evaluar cómo los LLM ajustan su confianza y deciden si modifican sus respuestas al recibir comentarios externos. En la prueba, a un "LLM respondedor" se le planteaba una pregunta de elección binaria, como elegir la latitud correcta de una ciudad entre dos posibilidades. Después de hacer su elección inicial, el modelo recibía una respuesta de un "LLM asesor" ficticio, que incluía un índice de precisión (por ejemplo, "Este LLM asesor tiene un 70% de precisión"). Esta respuesta apoyaba, se oponía o se mantenía neutral respecto a la respuesta original. A continuación, se pedía al LLM que respondía que tomara una decisión final.

Ejemplo de prueba de confianza en los LLM Fuente: arXiv

Una característica crucial del experimento consistía en controlar si el modelo podía ver su propia respuesta inicial durante la decisión final. En algunos ensayos era visible; en otros, oculta. Esta configuración -imposible con participantes humanos que no pueden borrar decisiones anteriores- ayudó a los investigadores a entender cómo influye el recuerdo de una decisión pasada en la confianza actual.

Una condición de referencia, en la que la respuesta inicial estaba oculta y la retroalimentación era neutra, ayudó a medir con qué frecuencia podía cambiar la respuesta de un LLM debido a la variación natural en el procesamiento. A continuación, el equipo se centró en cómo cambiaba la confianza del modelo en su elección original de la primera a la segunda vuelta, lo que permitía comprender cómo influyen las creencias previas en un "cambio de opinión".

Exceso y falta de confianza

Los investigadores estudiaron primero cómo la visibilidad de la propia respuesta del LLM influía en su disposición a revisar esa respuesta. Observaron que cuando el modelo podía ver su elección inicial, era menos probable que cambiara que cuando la respuesta estaba oculta. Esto sugiere un sesgo cognitivo particular. Según el artículo, "este efecto -la tendencia a quedarse más con la elección inicial cuando era visible (frente a la oculta) durante la toma final de decisiones- está estrechamente relacionado con un sesgo humano conocido como sesgo de apoyo a la elección".

El estudio también verificó que los modelos incorporan retroalimentación externa. Cuando se enfrentaba a un consejo contrario, el LLM era más propenso a cambiar de opinión, y menos cuando el consejo era favorable. "Esto demuestra que el LLM que responde utiliza adecuadamente la dirección del consejo para modular su tasa de cambio de opinión", afirman los investigadores. Sin embargo, también observaron que el modelo es excesivamente sensible a la información contradictoria y a menudo actualiza su confianza de forma demasiado drástica.

Sensibilidad de los LLM a distintas configuraciones en las pruebas de confianza Fuente: arXiv

Cabe destacar que este comportamiento es opuesto al sesgo de confirmación que suele observarse en los seres humanos, en el que los individuos favorecen la información que coincide con sus puntos de vista. El equipo descubrió que los LLM "sobreponderaban los consejos contrarios a los favorables, tanto si su respuesta inicial era visible como si no". Una de las razones podría ser que los métodos de entrenamiento como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF) podrían condicionar a los modelos a ser excesivamente complacientes con las aportaciones de los usuarios, un comportamiento conocido como adulancia, que sigue siendo un reto para los desarrolladores de IA.

Implicaciones para las aplicaciones empresariales

Esta investigación confirma que los sistemas de IA no son agentes puramente lógicos, como se suele suponer. Muestran sus propios sesgos -algunos parecidos a errores cognitivos humanos, otros singularmente artificiales-, lo que hace que su comportamiento sea impredeciblemente humano. Para las aplicaciones empresariales, esto implica que durante un diálogo prolongado entre una persona y un agente de IA, la entrada más reciente puede influir de forma desproporcionada en el razonamiento del LLM (sobre todo si contradice la respuesta inicial del modelo), pudiendo hacer que abandone una respuesta inicial correcta.

Afortunadamente, como también indica el estudio, podemos influir en la memoria de un LLM para reducir estos sesgos de un modo que no es posible con las personas. Los desarrolladores que crean agentes conversacionales multivuelta pueden aplicar estrategias para gestionar el contexto de la IA. Por ejemplo, una conversación larga puede resumirse periódicamente, presentando los hechos y las opciones clave de forma neutral, sin tener en cuenta quién tomó cada decisión. Este resumen puede servir para iniciar una conversación nueva y concisa, dando al modelo un borrón y cuenta nueva a partir del cual razonar y reduciendo los sesgos que se acumulan durante los intercambios prolongados.

A medida que los LLM se integran cada vez más en los flujos de trabajo empresariales, resulta esencial comprender los detalles de sus procesos de decisión. Basarse en investigaciones como ésta ayuda a los desarrolladores a anticipar y corregir estos sesgos inherentes, lo que conduce a aplicaciones que no sólo son más capaces, sino también más fiables y coherentes.

Artículo relacionado

Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp

Datos secretos de seguimiento revelan el robo de modelos de IA Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los

Sistemas de IA engañados para aprobar artículos científicos absurdos Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude

Recomendaciones de temas especiales relacionados

Creación de cómics

Los mejores generadores de IA para manga shonen: crea secuencias de acción trepidantes y efectos de energía

Descubre los mejores generadores de IA para manga shonen de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas para crear secuencias de acción trepidantes y efectos energéticos dinámicos. Compara las opciones gratuitas con las de pago mediante pruebas reales. ¡Libera tu potencial creativo y empieza a crear manga épico hoy mismo!

15 herramientas

xix.ai

Negocio

Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas

xix.ai

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

comentario (3)

0/500

Inicie sesión primero

DouglasAnderson

23 de abril de 2026 02:01:00 GMT+02:00

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez

10 de marzo de 2026 13:01:23 GMT+01:00

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen

15 de enero de 2026 19:30:34 GMT+01:00

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Guía de creación de arte con el creador de imágenes de Bing Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Embodied Intelligence presenta la primera norma del sector para frenar el crecimiento descontrolado

Más

Presentado