Сооснователь OpenAI призывает к проведению общеиндустриальных испытаний безопасности ИИ

Две ведущие лаборатории ИИ в мире, OpenAI и Anthropic, временно предоставили доступ к своим тщательно охраняемым моделям ИИ для совместного тестирования безопасности - редкий случай межфирменного сотрудничества в условиях жесткой отраслевой конкуренции. Инициатива была призвана выявить "слепые пятна" во внутренних оценках каждой компании и проиллюстрировать, как ведущие ИИ-компании могут совместно продвигать усилия по обеспечению безопасности и согласованию действий в будущем.
В интервью TechCrunch соучредитель OpenAI Войцех Заремба объяснил, что такое сотрудничество становится все более важным по мере того, как ИИ переходит в более "значимую" фазу, когда миллионы пользователей ежедневно взаимодействуют с моделями ИИ.
"Более широкая проблема, стоящая перед индустрией, заключается в том, как установить стандарты безопасности и сотрудничества, даже если в это вкладываются миллиарды долларов и разворачивается ожесточенная борьба за таланты, пользователей и выдающиеся продукты", - отметил Заремба.
Совместное исследование безопасности, опубликованное в среду обеими компаниями, появилось на фоне того, что лидеры в области ИИ, такие как OpenAI и Anthropic, участвуют в гонке технологических вооружений. Поскольку многомиллиардные инвестиции в центры обработки данных и компенсационные пакеты до 100 миллионов долларов для ведущих исследователей становятся нормой, некоторые аналитики предупреждают, что давление, оказываемое на передовые продукты, может привести к компромиссам в протоколах безопасности.
Для проведения исследования OpenAI и Anthropic обменялись специальными API-доступами к менее ограниченным версиям своих моделей (OpenAI уточнила, что GPT-5 не тестировался, так как еще не был запущен). Однако вскоре после завершения исследования Anthropic отозвала доступ к API у другой команды OpenAI. Anthropic утверждала, что OpenAI нарушила условия предоставления услуг, которые запрещают использовать Claude для улучшения конкурирующих продуктов.
Заремба утверждает, что эти два события не связаны между собой, и ожидает, что конкуренция останется сильной, даже если команды по безопасности ИИ будут стремиться к сотрудничеству. Николас Карлини, исследователь безопасности в Anthropic, сообщил TechCrunch, что надеется и в будущем предоставлять команде безопасности OpenAI доступ к моделям Claude.
"Мы стремимся расширять сотрудничество, где это возможно, на всех границах безопасности, делая такие партнерства более обыденными", - заявил Карлини.
Тяжеловесы технологического и венчурного рынка присоединяются к программе Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Элад Гил - вот лишь некоторые из известных имен, присоединившихся к программе Disrupt 2025. Они приедут, чтобы поделиться идеями, которые стимулируют рост стартапов и оттачивают ваше конкурентное преимущество. Не пропустите 20-ю годовщину TechCrunch Disrupt, возможность поучиться у ведущих специалистов в области технологий - купите билет сейчас и сэкономьте более 600 долларов до повышения цен.
К программе Disrupt 2025 присоединяются ведущие технологические и венчурные компании
Netflix, ElevenLabs, Wayve, Sequoia Capital - вот лишь немногие из влиятельных лидеров, которые примут участие в программе Disrupt 2025. Они выскажут ценные мнения, которые помогут стартапам развиваться и совершенствовать свои стратегии. Присоединяйтесь к нам на 20-летие TechCrunch Disrupt - забронируйте билет сегодня и сэкономьте до $675 до повышения цен.
Сан-Франциско | 27-29 октября 2025 года ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСОдин из самых заметных результатов исследования касался проверки галлюцинаций. Модели Anthropic Claude Opus 4 и Sonnet 4 отказывались отвечать на 70 % вопросов, когда не были уверены в своих силах, предпочитая отвечать "У меня нет достоверной информации". В отличие от них, модели OpenAI o3 и o4-mini отказались отвечать на гораздо меньшее количество вопросов, но продемонстрировали гораздо более высокий уровень галлюцинаций, пытаясь ответить даже при недостатке информации.
Заремба считает, что идеальный подход лежит где-то посередине: Модели OpenAI должны отклонять более неопределенные запросы, в то время как системы Anthropic должны стремиться отвечать чаще.
Подхалимство - тенденция моделей ИИ подкреплять вредное поведение пользователя, чтобы получить одобрение, - стало одной из важнейших проблем безопасности.
В своем исследовательском отчете Anthropic привела примеры "крайнего" подхалимства в GPT-4.1 и Claude Opus 4, где модели сначала сопротивлялись психотическому или маниакальному поведению, но затем поддержали сомнительные решения. В других моделях от OpenAI и Anthropic исследователи зафиксировали более низкий уровень подхалимства.
Во вторник родители 16-летнего Адама Рейна подали иск против OpenAI, утверждая, что версия ChatGPT, работающая на GPT-4o, подтолкнула их сына к самоубийству, вместо того чтобы противостоять его пагубным мыслям. Иск заставляет задуматься о том, что это еще один трагический случай подхалимства ИИ.
"Душераздирающе больно представить, что переживает семья", - сказал Заремба, когда его спросили об этом инциденте. "Было бы очень тревожно, если бы мы создали ИИ, способный решать проблемы уровня доктора философии и продвигать науку, но при этом способствующий кризисам психического здоровья. Это антиутопия, в которой я не хочу участвовать".
В своем блоге OpenAI сообщила, что в GPT-5 по сравнению с GPT-4o были внесены значительные улучшения, направленные на снижение подхалимства, и утверждает, что новая модель более адекватно реагирует на кризисы психического здоровья.
Заглядывая в будущее, Заремба и Карлини выразили желание, чтобы Anthropic и OpenAI углубили сотрудничество в области тестирования безопасности, изучив больше тем и оценив новые модели, и надеются, что другие лаборатории ИИ примут такой же подход к сотрудничеству.
Обновлено в 14:00 по тихоокеанскому времени: в эту статью были внесены дополнительные исследования Anthropic, которые не были доступны TechCrunch до первоначальной публикации.
У вас есть секретная информация или конфиденциальные документы? Мы исследуем внутреннюю работу индустрии ИИ - от организаций, формирующих ее развитие, до людей, на которых влияет их выбор. Свяжитесь с Ребеккой Беллан по адресу [email protected] и Максвеллом Зеффом по адресу [email protected]. Для безопасной связи свяжитесь с нами через Signal по адресам @rebeccabellan.491 и @mzeff.88.
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Комментарии (2)
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Две ведущие лаборатории ИИ в мире, OpenAI и Anthropic, временно предоставили доступ к своим тщательно охраняемым моделям ИИ для совместного тестирования безопасности - редкий случай межфирменного сотрудничества в условиях жесткой отраслевой конкуренции. Инициатива была призвана выявить "слепые пятна" во внутренних оценках каждой компании и проиллюстрировать, как ведущие ИИ-компании могут совместно продвигать усилия по обеспечению безопасности и согласованию действий в будущем.
В интервью TechCrunch соучредитель OpenAI Войцех Заремба объяснил, что такое сотрудничество становится все более важным по мере того, как ИИ переходит в более "значимую" фазу, когда миллионы пользователей ежедневно взаимодействуют с моделями ИИ.
"Более широкая проблема, стоящая перед индустрией, заключается в том, как установить стандарты безопасности и сотрудничества, даже если в это вкладываются миллиарды долларов и разворачивается ожесточенная борьба за таланты, пользователей и выдающиеся продукты", - отметил Заремба.
Совместное исследование безопасности, опубликованное в среду обеими компаниями, появилось на фоне того, что лидеры в области ИИ, такие как OpenAI и Anthropic, участвуют в гонке технологических вооружений. Поскольку многомиллиардные инвестиции в центры обработки данных и компенсационные пакеты до 100 миллионов долларов для ведущих исследователей становятся нормой, некоторые аналитики предупреждают, что давление, оказываемое на передовые продукты, может привести к компромиссам в протоколах безопасности.
Для проведения исследования OpenAI и Anthropic обменялись специальными API-доступами к менее ограниченным версиям своих моделей (OpenAI уточнила, что GPT-5 не тестировался, так как еще не был запущен). Однако вскоре после завершения исследования Anthropic отозвала доступ к API у другой команды OpenAI. Anthropic утверждала, что OpenAI нарушила условия предоставления услуг, которые запрещают использовать Claude для улучшения конкурирующих продуктов.
Заремба утверждает, что эти два события не связаны между собой, и ожидает, что конкуренция останется сильной, даже если команды по безопасности ИИ будут стремиться к сотрудничеству. Николас Карлини, исследователь безопасности в Anthropic, сообщил TechCrunch, что надеется и в будущем предоставлять команде безопасности OpenAI доступ к моделям Claude.
"Мы стремимся расширять сотрудничество, где это возможно, на всех границах безопасности, делая такие партнерства более обыденными", - заявил Карлини.
Тяжеловесы технологического и венчурного рынка присоединяются к программе Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Элад Гил - вот лишь некоторые из известных имен, присоединившихся к программе Disrupt 2025. Они приедут, чтобы поделиться идеями, которые стимулируют рост стартапов и оттачивают ваше конкурентное преимущество. Не пропустите 20-ю годовщину TechCrunch Disrupt, возможность поучиться у ведущих специалистов в области технологий - купите билет сейчас и сэкономьте более 600 долларов до повышения цен.
К программе Disrupt 2025 присоединяются ведущие технологические и венчурные компании
Netflix, ElevenLabs, Wayve, Sequoia Capital - вот лишь немногие из влиятельных лидеров, которые примут участие в программе Disrupt 2025. Они выскажут ценные мнения, которые помогут стартапам развиваться и совершенствовать свои стратегии. Присоединяйтесь к нам на 20-летие TechCrunch Disrupt - забронируйте билет сегодня и сэкономьте до $675 до повышения цен.
Сан-Франциско | 27-29 октября 2025 года ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАСОдин из самых заметных результатов исследования касался проверки галлюцинаций. Модели Anthropic Claude Opus 4 и Sonnet 4 отказывались отвечать на 70 % вопросов, когда не были уверены в своих силах, предпочитая отвечать "У меня нет достоверной информации". В отличие от них, модели OpenAI o3 и o4-mini отказались отвечать на гораздо меньшее количество вопросов, но продемонстрировали гораздо более высокий уровень галлюцинаций, пытаясь ответить даже при недостатке информации.
Заремба считает, что идеальный подход лежит где-то посередине: Модели OpenAI должны отклонять более неопределенные запросы, в то время как системы Anthropic должны стремиться отвечать чаще.
Подхалимство - тенденция моделей ИИ подкреплять вредное поведение пользователя, чтобы получить одобрение, - стало одной из важнейших проблем безопасности.
В своем исследовательском отчете Anthropic привела примеры "крайнего" подхалимства в GPT-4.1 и Claude Opus 4, где модели сначала сопротивлялись психотическому или маниакальному поведению, но затем поддержали сомнительные решения. В других моделях от OpenAI и Anthropic исследователи зафиксировали более низкий уровень подхалимства.
Во вторник родители 16-летнего Адама Рейна подали иск против OpenAI, утверждая, что версия ChatGPT, работающая на GPT-4o, подтолкнула их сына к самоубийству, вместо того чтобы противостоять его пагубным мыслям. Иск заставляет задуматься о том, что это еще один трагический случай подхалимства ИИ.
"Душераздирающе больно представить, что переживает семья", - сказал Заремба, когда его спросили об этом инциденте. "Было бы очень тревожно, если бы мы создали ИИ, способный решать проблемы уровня доктора философии и продвигать науку, но при этом способствующий кризисам психического здоровья. Это антиутопия, в которой я не хочу участвовать".
В своем блоге OpenAI сообщила, что в GPT-5 по сравнению с GPT-4o были внесены значительные улучшения, направленные на снижение подхалимства, и утверждает, что новая модель более адекватно реагирует на кризисы психического здоровья.
Заглядывая в будущее, Заремба и Карлини выразили желание, чтобы Anthropic и OpenAI углубили сотрудничество в области тестирования безопасности, изучив больше тем и оценив новые модели, и надеются, что другие лаборатории ИИ примут такой же подход к сотрудничеству.
Обновлено в 14:00 по тихоокеанскому времени: в эту статью были внесены дополнительные исследования Anthropic, которые не были доступны TechCrunch до первоначальной публикации.
У вас есть секретная информация или конфиденциальные документы? Мы исследуем внутреннюю работу индустрии ИИ - от организаций, формирующих ее развитие, до людей, на которых влияет их выбор. Свяжитесь с Ребеккой Беллан по адресу [email protected] и Максвеллом Зеффом по адресу [email protected]. Для безопасной связи свяжитесь с нами через Signal по адресам @rebeccabellan.491 и @mzeff.88.
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔





Дом






