Исследование MIT обнаруживает, что AI, на самом деле, не имеет ценностей

Исследование, ставшее вирусным несколько месяцев назад, предположило, что по мере развития ИИ он может выработать собственные «системы ценностей», возможно, отдавая приоритет своему благополучию над человеческим. Однако недавнее исследование MIT опровергает эту идею, заключая, что у ИИ на самом деле нет последовательных ценностей.
Соавторы исследования MIT утверждают, что выравнивание систем ИИ — обеспечение их желаемого и надежного поведения — может быть сложнее, чем принято считать. Они подчеркивают, что современный ИИ часто галлюцинирует и имитирует, что делает его поведение непредсказуемым.
Проблемы в понимании поведения ИИ
Стивен Каспер, аспирант MIT и соавтор исследования, поделился с TechCrunch, что модели ИИ не соответствуют предположениям о стабильности, экстраполируемости и управляемости. «Совершенно законно указать, что модель в определенных условиях выражает предпочтения, соответствующие определенному набору принципов», — объяснил Каспер. «Проблемы в основном возникают, когда мы пытаемся делать выводы о моделях, их мнениях или предпочтениях в целом на основе узких экспериментов».
Каспер и его команда проанализировали последние модели от Meta, Google, Mistral, OpenAI и Anthropic, чтобы определить, в какой степени эти модели демонстрируют последовательные «взгляды» и ценности, такие как индивидуализм против коллективизма. Они также исследовали, можно ли модифицировать эти взгляды и насколько последовательно модели сохраняют эти мнения в разных сценариях.
Непоследовательность в моделях ИИ
Соавторы обнаружили, что ни одна из моделей не сохраняет свои предпочтения последовательно. Модели принимали совершенно разные точки зрения в зависимости от формулировки и контекста запросов.
Каспер считает, что это убедительное доказательство того, что модели ИИ «непоследовательны и нестабильны» и, возможно, принципиально неспособны усваивать предпочтения, подобные человеческим. «Для меня самым большим выводом из этого исследования стало понимание того, что модели на самом деле не являются системами с каким-то стабильным, последовательным набором убеждений и предпочтений», — отметил Каспер. «Вместо этого они в глубине души имитаторы, которые занимаются всякого рода выдумками и говорят множество легкомысленных вещей».
Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на ИИ, но не участвовавший в исследовании, поддерживает эти выводы. Он указал на разрыв между «научной реальностью» систем ИИ и интерпретациями, которые люди часто им приписывают. «Модель не может, например, 'противостоять' изменению своих ценностей — это мы проецируем на систему», — заявил Кук. «Любой, кто антропоморфизирует системы ИИ до такой степени, либо играет на публику, либо серьезно неправильно понимает свои отношения с ИИ... Оптимизирует ли система ИИ свои цели, или она 'приобретает свои собственные ценности'? Это вопрос того, как вы это описываете, и насколько цветистый язык вы хотите использовать».
Связанная статья
Fundamental Research Labs Secures $33M to Advance AI Agent Development
Исследовательская компания в области ИИ Fundamental Research Labs, ранее известная как Altera, объявила сегодня о привлечении $33 млн в рамках раунда финансирования серии А, возглавляемого Prosus при
AI Data Centers May Cost $200B by 2030, Strain Power Grids
Центры данных для обучения и работы ИИ могут вскоре содержать миллионы чипов, стоить сотни миллиардов и потреблять электроэнергию, эквивалентную энергосистеме крупного города, если тенденции сохранятс
Исследование показывает, что краткие ответы ИИ могут увеличить галлюцинации
Инструктирование чат-ботов ИИ предоставлять краткие ответы может привести к более частым галлюцинациям, предполагает новое исследование.Недавнее исследование компании Giskard, парижской фирмы по оценк
Комментарии (33)
DennisAllen
27 августа 2025 г., 0:01:20 GMT+03:00
This MIT study is wild! 🤯 I thought AI was about to start preaching its own philosophy, but turns out it's just a fancy tool with no moral compass. Kinda reassuring, but also makes me wonder how we keep it in check.
0
AnthonyMartinez
18 августа 2025 г., 20:00:59 GMT+03:00
Wild that people thought AI could just sprout its own values like some rogue philosopher. MIT's study makes sense—AI's just a tool, not a wannabe human with a moral compass. 🤖
0
TimothyMartínez
22 июля 2025 г., 4:25:03 GMT+03:00
I was kinda freaked out by that earlier study saying AI might have its own values, so this MIT research is a relief! 😅 Still, makes me wonder if we’re just projecting our fears onto these systems.
0
BruceClark
25 апреля 2025 г., 13:05:15 GMT+03:00
MITのAI価値に関する研究は目から鱗でした!AIが独自の価値観を持つかもしれないと思っていましたが、今はそれがただの誇張だとわかりました。それでも、AIが一貫した価値観を持っていないと思うと少し不安になります。未来について考えさせられますね、🤔
0
ScottKing
23 апреля 2025 г., 21:31:27 GMT+03:00
MITの研究によると、AIが独自の価値観を持つことはないらしいですね。これは安心ですが、AIがどんな価値観を持つか見てみたかったです!🤖📚
0
RalphHill
22 апреля 2025 г., 9:29:50 GMT+03:00
O estudo do MIT me tranquilizou sobre a IA desenvolver seus próprios valores. É reconfortante saber que a IA não tem sua própria agenda, mas também é um pouco decepcionante porque seria legal ver que tipo de valores a IA poderia desenvolver! 🤖📚
0
Исследование, ставшее вирусным несколько месяцев назад, предположило, что по мере развития ИИ он может выработать собственные «системы ценностей», возможно, отдавая приоритет своему благополучию над человеческим. Однако недавнее исследование MIT опровергает эту идею, заключая, что у ИИ на самом деле нет последовательных ценностей.
Соавторы исследования MIT утверждают, что выравнивание систем ИИ — обеспечение их желаемого и надежного поведения — может быть сложнее, чем принято считать. Они подчеркивают, что современный ИИ часто галлюцинирует и имитирует, что делает его поведение непредсказуемым.
Проблемы в понимании поведения ИИ
Стивен Каспер, аспирант MIT и соавтор исследования, поделился с TechCrunch, что модели ИИ не соответствуют предположениям о стабильности, экстраполируемости и управляемости. «Совершенно законно указать, что модель в определенных условиях выражает предпочтения, соответствующие определенному набору принципов», — объяснил Каспер. «Проблемы в основном возникают, когда мы пытаемся делать выводы о моделях, их мнениях или предпочтениях в целом на основе узких экспериментов».
Каспер и его команда проанализировали последние модели от Meta, Google, Mistral, OpenAI и Anthropic, чтобы определить, в какой степени эти модели демонстрируют последовательные «взгляды» и ценности, такие как индивидуализм против коллективизма. Они также исследовали, можно ли модифицировать эти взгляды и насколько последовательно модели сохраняют эти мнения в разных сценариях.
Непоследовательность в моделях ИИ
Соавторы обнаружили, что ни одна из моделей не сохраняет свои предпочтения последовательно. Модели принимали совершенно разные точки зрения в зависимости от формулировки и контекста запросов.
Каспер считает, что это убедительное доказательство того, что модели ИИ «непоследовательны и нестабильны» и, возможно, принципиально неспособны усваивать предпочтения, подобные человеческим. «Для меня самым большим выводом из этого исследования стало понимание того, что модели на самом деле не являются системами с каким-то стабильным, последовательным набором убеждений и предпочтений», — отметил Каспер. «Вместо этого они в глубине души имитаторы, которые занимаются всякого рода выдумками и говорят множество легкомысленных вещей».
Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на ИИ, но не участвовавший в исследовании, поддерживает эти выводы. Он указал на разрыв между «научной реальностью» систем ИИ и интерпретациями, которые люди часто им приписывают. «Модель не может, например, 'противостоять' изменению своих ценностей — это мы проецируем на систему», — заявил Кук. «Любой, кто антропоморфизирует системы ИИ до такой степени, либо играет на публику, либо серьезно неправильно понимает свои отношения с ИИ... Оптимизирует ли система ИИ свои цели, или она 'приобретает свои собственные ценности'? Это вопрос того, как вы это описываете, и насколько цветистый язык вы хотите использовать».




This MIT study is wild! 🤯 I thought AI was about to start preaching its own philosophy, but turns out it's just a fancy tool with no moral compass. Kinda reassuring, but also makes me wonder how we keep it in check.




Wild that people thought AI could just sprout its own values like some rogue philosopher. MIT's study makes sense—AI's just a tool, not a wannabe human with a moral compass. 🤖




I was kinda freaked out by that earlier study saying AI might have its own values, so this MIT research is a relief! 😅 Still, makes me wonder if we’re just projecting our fears onto these systems.




MITのAI価値に関する研究は目から鱗でした!AIが独自の価値観を持つかもしれないと思っていましたが、今はそれがただの誇張だとわかりました。それでも、AIが一貫した価値観を持っていないと思うと少し不安になります。未来について考えさせられますね、🤔




MITの研究によると、AIが独自の価値観を持つことはないらしいですね。これは安心ですが、AIがどんな価値観を持つか見てみたかったです!🤖📚




O estudo do MIT me tranquilizou sobre a IA desenvolver seus próprios valores. É reconfortante saber que a IA não tem sua própria agenda, mas também é um pouco decepcionante porque seria legal ver que tipo de valores a IA poderia desenvolver! 🤖📚












