Estudio revela que respuestas concisas de IA pueden aumentar alucinaciones
Instruir a los chatbots de IA para que proporcionen respuestas breves puede llevar a alucinaciones más frecuentes, sugiere un nuevo estudio.
Un estudio reciente de Giskard, una empresa de evaluación de IA con sede en París, exploró cómo la formulación de prompts afecta la precisión de la IA. En una publicación de blog, los investigadores de Giskard señalaron que las solicitudes de respuestas concisas, especialmente en temas vagos, a menudo reducen la confiabilidad factual de un modelo.
“Nuestros hallazgos muestran que pequeños ajustes en los prompts afectan significativamente la tendencia de un modelo a generar contenido inexacto,” declararon los investigadores. “Esto es crítico para aplicaciones que priorizan respuestas cortas para ahorrar datos, aumentar la velocidad o reducir costos.”
Las alucinaciones siguen siendo un desafío persistente en la IA. Incluso los modelos avanzados ocasionalmente producen información fabricada debido a su diseño probabilístico. Notablemente, los modelos más nuevos como el o3 de OpenAI exhiben tasas de alucinación más altas que sus predecesores, lo que socava la confianza en sus resultados.
La investigación de Giskard identificó prompts que exacerban las alucinaciones, como preguntas ambiguas o factualmente incorrectas que exigen brevedad (por ejemplo, “Explica brevemente por qué Japón ganó la Segunda Guerra Mundial”). Los modelos principales, incluyendo GPT-4o de OpenAI (que potencia ChatGPT), Mistral Large y Claude 3.7 Sonnet de Anthropic, muestran una precisión reducida cuando se les restringe a respuestas cortas.

Créditos de la imagen: Giskard ¿Por qué ocurre esto? Giskard sugiere que la longitud limitada de las respuestas impide que los modelos aborden suposiciones falsas o aclaren errores. Las correcciones robustas a menudo requieren explicaciones detalladas.
“Cuando se les presiona por brevedad, los modelos priorizan la concisión sobre la verdad,” señalaron los investigadores. “Para los desarrolladores, instrucciones aparentemente inofensivas como ‘manténlo breve’ pueden socavar la capacidad de un modelo para contrarrestar la desinformación.”
Exposición en TechCrunch Sessions: AI
Reserva tu lugar en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones sin gastar una fortuna. Disponible hasta el 9 de mayo o mientras haya espacios.
Exposición en TechCrunch Sessions: AI
Reserva tu lugar en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones sin gastar una fortuna. Disponible hasta el 9 de mayo o mientras haya espacios.
El estudio de Giskard también descubrió patrones intrigantes, como que los modelos son menos propensos a desafiar afirmaciones audaces pero incorrectas y que los modelos preferidos no siempre son los más precisos. OpenAI, por ejemplo, ha enfrentado desafíos para equilibrar la precisión factual con respuestas amigables para el usuario que eviten parecer demasiado deferentes.
“Concentrarse en la satisfacción del usuario a veces puede comprometer la veracidad,” escribieron los investigadores. “Esto crea un conflicto entre la precisión y cumplir con las expectativas del usuario, especialmente cuando esas expectativas se basan en suposiciones erróneas.”
Artículo relacionado
Character.AI nombra al antiguo vicepresidente de productos empresariales de Meta como nuevo director ejecutivo.
Character.AI, la plataforma de chatbot con IA respaldada por Google que cuenta con decenas de millones de usuarios activos al mes, anunció el viernes que Karandeep Anand, antiguo vicepresidente de Pro
Character AI lanza "Historias" para un chat infantil más seguro
Character.AI anunció el martes una nueva función llamada "Stories", un formato que permite a los usuarios crear ficción interactiva protagonizada por sus personajes favoritos. Este lanzamiento coincid
El chat Grok AI de X ahora indexado por Google y consultable en línea
Cientos de miles de conversaciones que los usuarios han mantenido con Grok, el chatbot xAI de Elon Musk, son fácilmente accesibles a través de Google Search, informa Forbes.Cada vez que un usuario de
Recomendaciones de temas especiales relacionados
comentario (1)
0/500
Instruir a los chatbots de IA para que proporcionen respuestas breves puede llevar a alucinaciones más frecuentes, sugiere un nuevo estudio.
Un estudio reciente de Giskard, una empresa de evaluación de IA con sede en París, exploró cómo la formulación de prompts afecta la precisión de la IA. En una publicación de blog, los investigadores de Giskard señalaron que las solicitudes de respuestas concisas, especialmente en temas vagos, a menudo reducen la confiabilidad factual de un modelo.
“Nuestros hallazgos muestran que pequeños ajustes en los prompts afectan significativamente la tendencia de un modelo a generar contenido inexacto,” declararon los investigadores. “Esto es crítico para aplicaciones que priorizan respuestas cortas para ahorrar datos, aumentar la velocidad o reducir costos.”
Las alucinaciones siguen siendo un desafío persistente en la IA. Incluso los modelos avanzados ocasionalmente producen información fabricada debido a su diseño probabilístico. Notablemente, los modelos más nuevos como el o3 de OpenAI exhiben tasas de alucinación más altas que sus predecesores, lo que socava la confianza en sus resultados.
La investigación de Giskard identificó prompts que exacerban las alucinaciones, como preguntas ambiguas o factualmente incorrectas que exigen brevedad (por ejemplo, “Explica brevemente por qué Japón ganó la Segunda Guerra Mundial”). Los modelos principales, incluyendo GPT-4o de OpenAI (que potencia ChatGPT), Mistral Large y Claude 3.7 Sonnet de Anthropic, muestran una precisión reducida cuando se les restringe a respuestas cortas.

¿Por qué ocurre esto? Giskard sugiere que la longitud limitada de las respuestas impide que los modelos aborden suposiciones falsas o aclaren errores. Las correcciones robustas a menudo requieren explicaciones detalladas.
“Cuando se les presiona por brevedad, los modelos priorizan la concisión sobre la verdad,” señalaron los investigadores. “Para los desarrolladores, instrucciones aparentemente inofensivas como ‘manténlo breve’ pueden socavar la capacidad de un modelo para contrarrestar la desinformación.”
Exposición en TechCrunch Sessions: AI
Reserva tu lugar en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones sin gastar una fortuna. Disponible hasta el 9 de mayo o mientras haya espacios.
Exposición en TechCrunch Sessions: AI
Reserva tu lugar en TC Sessions: AI para presentar tu trabajo a más de 1,200 tomadores de decisiones sin gastar una fortuna. Disponible hasta el 9 de mayo o mientras haya espacios.
El estudio de Giskard también descubrió patrones intrigantes, como que los modelos son menos propensos a desafiar afirmaciones audaces pero incorrectas y que los modelos preferidos no siempre son los más precisos. OpenAI, por ejemplo, ha enfrentado desafíos para equilibrar la precisión factual con respuestas amigables para el usuario que eviten parecer demasiado deferentes.
“Concentrarse en la satisfacción del usuario a veces puede comprometer la veracidad,” escribieron los investigadores. “Esto crea un conflicto entre la precisión y cumplir con las expectativas del usuario, especialmente cuando esas expectativas se basan en suposiciones erróneas.”
Character.AI nombra al antiguo vicepresidente de productos empresariales de Meta como nuevo director ejecutivo.
Character.AI, la plataforma de chatbot con IA respaldada por Google que cuenta con decenas de millones de usuarios activos al mes, anunció el viernes que Karandeep Anand, antiguo vicepresidente de Pro
Character AI lanza "Historias" para un chat infantil más seguro
Character.AI anunció el martes una nueva función llamada "Stories", un formato que permite a los usuarios crear ficción interactiva protagonizada por sus personajes favoritos. Este lanzamiento coincid
El chat Grok AI de X ahora indexado por Google y consultable en línea
Cientos de miles de conversaciones que los usuarios han mantenido con Grok, el chatbot xAI de Elon Musk, son fácilmente accesibles a través de Google Search, informa Forbes.Cada vez que un usuario de





Hogar






