Сооснователь OpenAI призывает к проведению общеиндустриальных испытаний безопасности ИИ

Дом

Новости

24 декабря 2025 г.

LucasWalker

# openai # Claude

Сооснователь OpenAI призывает к проведению общеиндустриальных испытаний безопасности ИИ

Две ведущие лаборатории ИИ в мире, OpenAI и Anthropic, временно предоставили доступ к своим тщательно охраняемым моделям ИИ для совместного тестирования безопасности - редкий случай межфирменного сотрудничества в условиях жесткой отраслевой конкуренции. Инициатива была призвана выявить "слепые пятна" во внутренних оценках каждой компании и проиллюстрировать, как ведущие ИИ-компании могут совместно продвигать усилия по обеспечению безопасности и согласованию действий в будущем.

В интервью TechCrunch соучредитель OpenAI Войцех Заремба объяснил, что такое сотрудничество становится все более важным по мере того, как ИИ переходит в более "значимую" фазу, когда миллионы пользователей ежедневно взаимодействуют с моделями ИИ.

"Более широкая проблема, стоящая перед индустрией, заключается в том, как установить стандарты безопасности и сотрудничества, даже если в это вкладываются миллиарды долларов и разворачивается ожесточенная борьба за таланты, пользователей и выдающиеся продукты", - отметил Заремба.

Совместное исследование безопасности, опубликованное в среду обеими компаниями, появилось на фоне того, что лидеры в области ИИ, такие как OpenAI и Anthropic, участвуют в гонке технологических вооружений. Поскольку многомиллиардные инвестиции в центры обработки данных и компенсационные пакеты до 100 миллионов долларов для ведущих исследователей становятся нормой, некоторые аналитики предупреждают, что давление, оказываемое на передовые продукты, может привести к компромиссам в протоколах безопасности.

Для проведения исследования OpenAI и Anthropic обменялись специальными API-доступами к менее ограниченным версиям своих моделей (OpenAI уточнила, что GPT-5 не тестировался, так как еще не был запущен). Однако вскоре после завершения исследования Anthropic отозвала доступ к API у другой команды OpenAI. Anthropic утверждала, что OpenAI нарушила условия предоставления услуг, которые запрещают использовать Claude для улучшения конкурирующих продуктов.

Заремба утверждает, что эти два события не связаны между собой, и ожидает, что конкуренция останется сильной, даже если команды по безопасности ИИ будут стремиться к сотрудничеству. Николас Карлини, исследователь безопасности в Anthropic, сообщил TechCrunch, что надеется и в будущем предоставлять команде безопасности OpenAI доступ к моделям Claude.

"Мы стремимся расширять сотрудничество, где это возможно, на всех границах безопасности, делая такие партнерства более обыденными", - заявил Карлини.

Netflix, ElevenLabs, Wayve, Sequoia Capital, Элад Гил - вот лишь некоторые из известных имен, присоединившихся к программе Disrupt 2025. Они приедут, чтобы поделиться идеями, которые стимулируют рост стартапов и оттачивают ваше конкурентное преимущество. Не пропустите 20-ю годовщину TechCrunch Disrupt, возможность поучиться у ведущих специалистов в области технологий - купите билет сейчас и сэкономьте более 600 долларов до повышения цен.

Netflix, ElevenLabs, Wayve, Sequoia Capital - вот лишь немногие из влиятельных лидеров, которые примут участие в программе Disrupt 2025. Они выскажут ценные мнения, которые помогут стартапам развиваться и совершенствовать свои стратегии. Присоединяйтесь к нам на 20-летие TechCrunch Disrupt - забронируйте билет сегодня и сэкономьте до $675 до повышения цен.

Сан-Франциско | 27-29 октября 2025 года ЗАРЕГИСТРИРОВАТЬСЯ СЕЙЧАС

Один из самых заметных результатов исследования касался проверки галлюцинаций. Модели Anthropic Claude Opus 4 и Sonnet 4 отказывались отвечать на 70 % вопросов, когда не были уверены в своих силах, предпочитая отвечать "У меня нет достоверной информации". В отличие от них, модели OpenAI o3 и o4-mini отказались отвечать на гораздо меньшее количество вопросов, но продемонстрировали гораздо более высокий уровень галлюцинаций, пытаясь ответить даже при недостатке информации.

Заремба считает, что идеальный подход лежит где-то посередине: Модели OpenAI должны отклонять более неопределенные запросы, в то время как системы Anthropic должны стремиться отвечать чаще.

Подхалимство - тенденция моделей ИИ подкреплять вредное поведение пользователя, чтобы получить одобрение, - стало одной из важнейших проблем безопасности.

В своем исследовательском отчете Anthropic привела примеры "крайнего" подхалимства в GPT-4.1 и Claude Opus 4, где модели сначала сопротивлялись психотическому или маниакальному поведению, но затем поддержали сомнительные решения. В других моделях от OpenAI и Anthropic исследователи зафиксировали более низкий уровень подхалимства.

Во вторник родители 16-летнего Адама Рейна подали иск против OpenAI, утверждая, что версия ChatGPT, работающая на GPT-4o, подтолкнула их сына к самоубийству, вместо того чтобы противостоять его пагубным мыслям. Иск заставляет задуматься о том, что это еще один трагический случай подхалимства ИИ.

"Душераздирающе больно представить, что переживает семья", - сказал Заремба, когда его спросили об этом инциденте. "Было бы очень тревожно, если бы мы создали ИИ, способный решать проблемы уровня доктора философии и продвигать науку, но при этом способствующий кризисам психического здоровья. Это антиутопия, в которой я не хочу участвовать".

В своем блоге OpenAI сообщила, что в GPT-5 по сравнению с GPT-4o были внесены значительные улучшения, направленные на снижение подхалимства, и утверждает, что новая модель более адекватно реагирует на кризисы психического здоровья.

Заглядывая в будущее, Заремба и Карлини выразили желание, чтобы Anthropic и OpenAI углубили сотрудничество в области тестирования безопасности, изучив больше тем и оценив новые модели, и надеются, что другие лаборатории ИИ примут такой же подход к сотрудничеству.

Обновлено в 14:00 по тихоокеанскому времени: в эту статью были внесены дополнительные исследования Anthropic, которые не были доступны TechCrunch до первоначальной публикации.

У вас есть секретная информация или конфиденциальные документы? Мы исследуем внутреннюю работу индустрии ИИ - от организаций, формирующих ее развитие, до людей, на которых влияет их выбор. Свяжитесь с Ребеккой Беллан по адресу [email protected] и Максвеллом Зеффом по адресу [email protected]. Для безопасной связи свяжитесь с нами через Signal по адресам @rebeccabellan.491 и @mzeff.88.

Связанная статья

Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы

OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых

Грег Брокман рассказывает, как Илон Маск покинул OpenAI В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения

Рекомендации по связанным специальным темам

код

Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях

Откройте для себя 20 лучших рецензентов кода на базе ИИ 2026 года на XIX.AI. В нашем тщательно составленном списке представлены высокооцененные, революционные инструменты для автоматизации проверки соответствия стандартам чистого кода и рефакторинга файлов в устаревших репозиториях. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Получите преимущество ИИ уже сегодня.

10 инструментов

xix.ai

Преобразование текста в речь

Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов

xix.ai

Создание комиксов

Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии

Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!

15 инструментов

xix.ai

Бизнес

Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов

xix.ai

Бизнес

Лучшие инструменты для подбора персонала с помощью ИИ: отбор резюме и автоматизация планирования собеседований с кандидатами

Откройте для себя 20 лучших инструментов для рекрутинга на базе ИИ 2026 года на сайте XIX.AI. В нашем тщательно составленном списке представлены мощные, революционные решения для отбора резюме и автоматизации планирования собеседований с кандидатами. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемого рейтинга. Найдите своего идеального помощника по подбору персонала и оптимизируйте процесс рекрутинга уже сегодня!

10 инструментов

xix.ai

Производительность

Персональные тренеры по благополучию и концентрации на базе ИИ: борьба с выгоранием и повышение уровня умственной энергии

Откройте для себя лучших в 2026 году ИИ-тренеров по личному благополучию и концентрации внимания на сайте XIX.AI. В нашем тщательно составленном рейтинге представлены высокооцененные, революционные инструменты для борьбы с выгоранием и повышения умственной энергии. Сравните бесплатные и платные варианты с помощью реальных отзывов. Откройте для себя путь к максимальной продуктивности и благополучию уже сегодня.

10 инструментов

xix.ai

Комментарии (2)

0/500

Пожалуйста, войдите в систему

IsabellaLevis

4 марта 2026 г., 5:00:50 GMT+03:00

AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔

GeorgeWilliams

20 февраля 2026 г., 3:01:46 GMT+03:00

So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан