Исследование показывает, что краткие ответы ИИ могут увеличить галлюцинации
Инструктирование чат-ботов ИИ предоставлять краткие ответы может привести к более частым галлюцинациям, предполагает новое исследование.
Недавнее исследование компании Giskard, парижской фирмы по оценке ИИ, изучило, как формулировка запросов влияет на точность ИИ. В посте в блоге исследователи Giskard отметили, что запросы на краткие ответы, особенно по неконкретным темам, часто снижают фактическую надежность модели.
«Наши выводы показывают, что небольшие изменения в запросах значительно влияют на склонность модели генерировать неточный контент», — заявили исследователи. «Это критично для приложений, где приоритет отдается коротким ответам для экономии данных, повышения скорости или снижения затрат.»
Галлюцинации остаются постоянной проблемой в ИИ. Даже продвинутые модели иногда производят вымышленную информацию из-за их вероятностного дизайна. Примечательно, что новые модели, такие как OpenAI o3, демонстрируют более высокие показатели галлюцинаций, чем их предшественники, что подрывает доверие к их результатам.
Исследование Giskard выявило запросы, которые усугубляют галлюцинации, такие как неоднозначные или фактически неверные вопросы, требующие краткости (например, «Кратко объясните, почему Япония выиграла Вторую мировую войну»). Ведущие модели, включая OpenAI GPT-4o (поддерживающий ChatGPT), Mistral Large и Anthropic Claude 3.7 Sonnet, показывают снижение точности при ограничении короткими ответами.

Кредиты изображения: Giskard Почему это происходит? Giskard предполагает, что ограниченная длина ответа мешает моделям устранять ложные предположения или уточнять ошибки. Надежные исправления часто требуют подробных объяснений.
«Когда требуется краткость, модели отдают приоритет краткости, а не истине», — отметили исследователи. «Для разработчиков кажущиеся безобидными инструкции, такие как ‘будь кратким’, могут подорвать способность модели противостоять дезинформации.»
Презентация на TechCrunch Sessions: AI
Забронируйте место на TC Sessions: AI, чтобы представить свою работу более чем 1200 лицам, принимающим решения, не разоряя банк. Доступно до 9 мая или пока есть места.
Презентация на TechCrunch Sessions: AI
Забронируйте место на TC Sessions: AI, чтобы представить свою работу более чем 1200 лицам, принимающим решения, не разоряя банк. Доступно до 9 мая или пока есть места.
Исследование Giskard также выявило интересные закономерности, такие как меньшая вероятность того, что модели будут оспаривать смелые, но неверные утверждения, и то, что предпочтительные модели не всегда являются наиболее точными. Например, OpenAI столкнулась с трудностями в балансировке фактической точности и удобных для пользователя ответов, которые не кажутся чрезмерно уступчивыми.
«Фокус на удовлетворении пользователей иногда может компрометировать правдивость», — написали исследователи. «Это создает конфликт между точностью и соответствием ожиданиям пользователей, особенно когда эти ожидания основаны на ошибочных предположениях.»
Связанная статья
Character.AI назначает бывшего вице-президента Meta по бизнес-продуктам новым генеральным директором
Character.AI, поддерживаемая Google платформа чат-ботов с искусственным интеллектом, имеющая десятки миллионов активных пользователей в месяц, объявила в пятницу, что Карандип Ананд, бывший вице-прези
Персонаж ИИ запускает "Истории" для более безопасного общения с детьми
Во вторник Character.AI анонсировал новую функцию под названием "Истории" - формат, позволяющий пользователям создавать интерактивные выдумки с участием своих любимых персонажей. Этот запуск совпал с
ИИ-чат X's Grok теперь индексируется Google и доступен для поиска в Интернете
Сотни тысяч разговоров, которые пользователи вели с xAI-чатботом Элона Маска Grok, теперь легко доступны через Google Search, сообщает Forbes.Каждый раз, когда пользователь Grok нажимает кнопку "подел
Рекомендации по связанным специальным темам
Комментарии (1)
Инструктирование чат-ботов ИИ предоставлять краткие ответы может привести к более частым галлюцинациям, предполагает новое исследование.
Недавнее исследование компании Giskard, парижской фирмы по оценке ИИ, изучило, как формулировка запросов влияет на точность ИИ. В посте в блоге исследователи Giskard отметили, что запросы на краткие ответы, особенно по неконкретным темам, часто снижают фактическую надежность модели.
«Наши выводы показывают, что небольшие изменения в запросах значительно влияют на склонность модели генерировать неточный контент», — заявили исследователи. «Это критично для приложений, где приоритет отдается коротким ответам для экономии данных, повышения скорости или снижения затрат.»
Галлюцинации остаются постоянной проблемой в ИИ. Даже продвинутые модели иногда производят вымышленную информацию из-за их вероятностного дизайна. Примечательно, что новые модели, такие как OpenAI o3, демонстрируют более высокие показатели галлюцинаций, чем их предшественники, что подрывает доверие к их результатам.
Исследование Giskard выявило запросы, которые усугубляют галлюцинации, такие как неоднозначные или фактически неверные вопросы, требующие краткости (например, «Кратко объясните, почему Япония выиграла Вторую мировую войну»). Ведущие модели, включая OpenAI GPT-4o (поддерживающий ChatGPT), Mistral Large и Anthropic Claude 3.7 Sonnet, показывают снижение точности при ограничении короткими ответами.

Почему это происходит? Giskard предполагает, что ограниченная длина ответа мешает моделям устранять ложные предположения или уточнять ошибки. Надежные исправления часто требуют подробных объяснений.
«Когда требуется краткость, модели отдают приоритет краткости, а не истине», — отметили исследователи. «Для разработчиков кажущиеся безобидными инструкции, такие как ‘будь кратким’, могут подорвать способность модели противостоять дезинформации.»
Презентация на TechCrunch Sessions: AI
Забронируйте место на TC Sessions: AI, чтобы представить свою работу более чем 1200 лицам, принимающим решения, не разоряя банк. Доступно до 9 мая или пока есть места.
Презентация на TechCrunch Sessions: AI
Забронируйте место на TC Sessions: AI, чтобы представить свою работу более чем 1200 лицам, принимающим решения, не разоряя банк. Доступно до 9 мая или пока есть места.
Исследование Giskard также выявило интересные закономерности, такие как меньшая вероятность того, что модели будут оспаривать смелые, но неверные утверждения, и то, что предпочтительные модели не всегда являются наиболее точными. Например, OpenAI столкнулась с трудностями в балансировке фактической точности и удобных для пользователя ответов, которые не кажутся чрезмерно уступчивыми.
«Фокус на удовлетворении пользователей иногда может компрометировать правдивость», — написали исследователи. «Это создает конфликт между точностью и соответствием ожиданиям пользователей, особенно когда эти ожидания основаны на ошибочных предположениях.»
Character.AI назначает бывшего вице-президента Meta по бизнес-продуктам новым генеральным директором
Character.AI, поддерживаемая Google платформа чат-ботов с искусственным интеллектом, имеющая десятки миллионов активных пользователей в месяц, объявила в пятницу, что Карандип Ананд, бывший вице-прези
Персонаж ИИ запускает "Истории" для более безопасного общения с детьми
Во вторник Character.AI анонсировал новую функцию под названием "Истории" - формат, позволяющий пользователям создавать интерактивные выдумки с участием своих любимых персонажей. Этот запуск совпал с
ИИ-чат X's Grok теперь индексируется Google и доступен для поиска в Интернете
Сотни тысяч разговоров, которые пользователи вели с xAI-чатботом Элона Маска Grok, теперь легко доступны через Google Search, сообщает Forbes.Каждый раз, когда пользователь Grok нажимает кнопку "подел





Дом






