Модель ByteDance Seed-OSS-36B с открытым исходным кодом поддерживает 512K токенов

TikTok снова в новостях после того, как Белый дом присоединился к популярной социальной медиаплатформе, но ее материнская компания ByteDance, крупная китайская технологическая фирма, также сделала неожиданное заявление.
Сегодня исследовательское подразделение компании, занимающееся вопросами ИИ, Seed Team, запустило Seed-OSS-36B в репозитории ИИ-кода Hugging Face.
Seed-OSS-36B - это новая серия больших языковых моделей (LLM) с открытым исходным кодом, созданных для сложных рассуждений и удобного использования разработчиками, с более длинным контекстом лексем, чем многие конкурирующие модели, разработанные в США, включая ведущие модели от OpenAI и Anthropic.
Коллекция включает три основных варианта:
- Seed-OSS-36B-Base с синтетическими данными
- Seed-OSS-36B-Base без синтетических данных
- Seed-OSS-36B-Instruct
Выпуская синтетическую и несинтетическую версии модели Seed-OSS-36B-Base, команда Seed Team стремилась сбалансировать производительность в реальном мире и адаптивность к исследованиям.
Версия с синтетическими данными, обученная с помощью дополнительных данных инструкций, достигает более высоких результатов на установленных эталонах и предназначена для использования в качестве более производительной модели общего назначения.
В отличие от нее, несинтетическая модель избавлена от этих улучшений, обеспечивая более четкую базу, которая уменьшает потенциальную погрешность от синтетических данных инструкций.
Предоставляя оба варианта, команда предлагает практическим пользователям улучшенные результаты, а исследователям - беспристрастную базу для изучения методов посттренингового обучения.
В то же время модель Seed-OSS-36B-Instruct проходит посттренинговое обучение на данных инструкций, фокусируясь на выполнении задач и соблюдении инструкций, а не только на базовой модели.
Все три модели лицензированы под Apache-2.0, что позволяет свободно использовать, изменять и распространять их среди корпоративных исследователей и разработчиков.
Это означает, что они могут быть интегрированы в коммерческие приложения, будь то внутренние операции или услуги для клиентов, без взимания компанией ByteDance платы за лицензирование или API.
Это следует тенденции середины 2025 года, когда китайские компании запускают передовые модели с открытым исходным кодом, а OpenAI старается не отставать от своего собственного недавно выпущенного дуэта gpt-oss с открытым исходным кодом.
Команда Seed Team разработала Seed-OSS для глобального использования, подчеркивая его адаптивность в рассуждениях, функции, ориентированные на задачи, и многоязычные среды.
Основанная в 2023 году, команда Seed Team сосредоточилась на создании фундаментальных моделей, подходящих как для исследований, так и для практического применения.
Дизайн и основные характеристики
Структура Seed-OSS-36B включает в себя такие признанные элементы дизайна, как каузальное моделирование языка, сгруппированное внимание запроса, активация SwiGLU, RMSNorm и позиционное кодирование RoPE.
Каждая модель содержит 36 миллиардов параметров, распределенных по 64 слоям, и поддерживает словарный запас из 155 000 лексем.
Характерной особенностью является присущая ей емкость длинного контекста, поддерживающая до 512 000 лексем для обработки длинных документов и логических последовательностей без ухудшения качества.
Это вдвое больше, чем у нового семейства GPT-5 от OpenAI, и примерно соответствует длине 1600 страниц текста - примерно как размер христианской Библии.
Еще одна отличительная черта - бюджет мышления, который позволяет разработчикам определять объем рассуждений, применяемых моделью перед генерацией ответа.
Подобный механизм присутствует и в других недавних релизах с открытым исходным кодом, включая Nemotron-Nano-9B-v2 от Nvidia, также доступный через Hugging Face.
С практической точки зрения, это позволяет командам калибровать производительность в зависимости от сложности задачи и эффективности развертывания.
Бюджетные значения указываются кратно 512 жетонам, при этом 0 включает режим прямого ответа.
Конкурентоспособная производительность в сторонних бенчмарках
Опубликованные результаты бенчмарков ставят Seed-OSS-36B в один ряд с самыми производительными крупными моделями с открытым исходным кодом. Версия Instruct, в особенности, достигает передовых результатов в нескольких областях.
- Математика и рассуждения: Seed-OSS-36B-Instruct набирает 91,7% в AIME24 и 65 баллов в BeyondAIME, что соответствует передовому уровню производительности с открытым исходным кодом (SOTA).
- Кодирование: В LiveCodeBench v6 модель Instruct достигает 67,4 балла, что является еще одним показателем SOTA.
- Возможность работы с длинными контекстами: В RULER при длине контекста 128 Кбайт она достигает 94,6, что является самым высоким результатом среди открытых источников.
- Производительность базовой модели: Вариант Base с синтетическими данными получает 65,1 балла на MMLU-Pro и 81,7 балла на MATH - оба результата лидируют в своих категориях.
Несинтетическая модель Base, хотя и немного отстает по нескольким метрикам, остается конкурентоспособной сама по себе.
Она превосходит синтетическую версию по GPQA-D, предоставляя исследователям более чистый, нейтральный к инструкциям базовый уровень для тестирования.
Для компаний, оценивающих открытые альтернативы, эти результаты показывают, что Seed-OSS имеет большие перспективы для приложений с интенсивным математическим анализом, кодированием и длинным контекстом, сохраняя при этом гибкость для исследовательских сценариев.
Доступ и развертывание
Помимо производительности, команда Seed Team уделяет особое внимание доступности для разработчиков. Модели развертываются с помощью Hugging Face Transformers, с квантованием в 4- и 8-битных форматах для минимизации использования памяти.
Они также интегрируются с vLLM для масштабируемого обслуживания, в комплекте с примерами настройки и рекомендациями по работе с сервером API.
Чтобы еще больше упростить внедрение, команда предоставляет скрипты для вывода, настройки подсказок и интеграции инструментов.
Для технических руководителей, управляющих небольшими командами или работающих в условиях ограниченного бюджета, эти ресурсы помогут сделать эксперименты с моделями на 36 миллиардов параметров более осуществимыми.
Лицензирование и соображения для руководителей предприятий
Доступные под лицензией Apache-2.0, эти модели могут быть приняты без ограничительного лицензирования, что является значительным преимуществом для команд, взвешивающих юридические и операционные факторы.
Для руководителей, оценивающих экосистему с открытым исходным кодом, этот выпуск выделяет три ключевых момента:
- Лучшие результаты бенчмарков в математике, кодировании и рассуждениях в длинном контексте.
- Баланс между высокопроизводительными синтетическими моделями и беспристрастными базовыми исследованиями.
- Функции доступности, которые снижают операционную сложность для оптимизированных инженерных подразделений.
Сочетая высокую производительность и адаптируемое развертывание под открытой лицензией, команда семян ByteDance расширила возможности, доступные компаниям, исследователям и разработчикам.
Связанная статья
ИИ раскрывает скрытые мотивы в новостном контенте
Модели в стиле ChatGPT сейчас обучаются выявлять основную точку зрения новостной статьи — даже если эта точка зрения скрыта за цитатами, формулировками или фасадом (иногда неискренней) нейтральности.
TikTok запускает переключатель для ограничения контента на основе искусственного интеллекта в ленте
TikTok, изначально являвшийся центром для видео, созданных пользователями, вводит новую функцию, которая позволяет пользователям регулировать количество контента, созданного искусственным интеллектом,
Claude 4.1 от Anthropic превосходит GPT-5 по результатам тестов на кодирование перед запуском GPT-5
В понедельник компания Anthropic представила усовершенствованную версию своей ведущей модели искусственного интеллекта, установив новый стандарт производительности в области программного обеспечения.
Рекомендации по связанным специальным темам
Комментарии (0)

TikTok снова в новостях после того, как Белый дом присоединился к популярной социальной медиаплатформе, но ее материнская компания ByteDance, крупная китайская технологическая фирма, также сделала неожиданное заявление.
Сегодня исследовательское подразделение компании, занимающееся вопросами ИИ, Seed Team, запустило Seed-OSS-36B в репозитории ИИ-кода Hugging Face.
Seed-OSS-36B - это новая серия больших языковых моделей (LLM) с открытым исходным кодом, созданных для сложных рассуждений и удобного использования разработчиками, с более длинным контекстом лексем, чем многие конкурирующие модели, разработанные в США, включая ведущие модели от OpenAI и Anthropic.
Коллекция включает три основных варианта:
- Seed-OSS-36B-Base с синтетическими данными
- Seed-OSS-36B-Base без синтетических данных
- Seed-OSS-36B-Instruct
Выпуская синтетическую и несинтетическую версии модели Seed-OSS-36B-Base, команда Seed Team стремилась сбалансировать производительность в реальном мире и адаптивность к исследованиям.
Версия с синтетическими данными, обученная с помощью дополнительных данных инструкций, достигает более высоких результатов на установленных эталонах и предназначена для использования в качестве более производительной модели общего назначения.
В отличие от нее, несинтетическая модель избавлена от этих улучшений, обеспечивая более четкую базу, которая уменьшает потенциальную погрешность от синтетических данных инструкций.
Предоставляя оба варианта, команда предлагает практическим пользователям улучшенные результаты, а исследователям - беспристрастную базу для изучения методов посттренингового обучения.
В то же время модель Seed-OSS-36B-Instruct проходит посттренинговое обучение на данных инструкций, фокусируясь на выполнении задач и соблюдении инструкций, а не только на базовой модели.
Все три модели лицензированы под Apache-2.0, что позволяет свободно использовать, изменять и распространять их среди корпоративных исследователей и разработчиков.
Это означает, что они могут быть интегрированы в коммерческие приложения, будь то внутренние операции или услуги для клиентов, без взимания компанией ByteDance платы за лицензирование или API.
Это следует тенденции середины 2025 года, когда китайские компании запускают передовые модели с открытым исходным кодом, а OpenAI старается не отставать от своего собственного недавно выпущенного дуэта gpt-oss с открытым исходным кодом.
Команда Seed Team разработала Seed-OSS для глобального использования, подчеркивая его адаптивность в рассуждениях, функции, ориентированные на задачи, и многоязычные среды.
Основанная в 2023 году, команда Seed Team сосредоточилась на создании фундаментальных моделей, подходящих как для исследований, так и для практического применения.
Дизайн и основные характеристики
Структура Seed-OSS-36B включает в себя такие признанные элементы дизайна, как каузальное моделирование языка, сгруппированное внимание запроса, активация SwiGLU, RMSNorm и позиционное кодирование RoPE.
Каждая модель содержит 36 миллиардов параметров, распределенных по 64 слоям, и поддерживает словарный запас из 155 000 лексем.
Характерной особенностью является присущая ей емкость длинного контекста, поддерживающая до 512 000 лексем для обработки длинных документов и логических последовательностей без ухудшения качества.
Это вдвое больше, чем у нового семейства GPT-5 от OpenAI, и примерно соответствует длине 1600 страниц текста - примерно как размер христианской Библии.
Еще одна отличительная черта - бюджет мышления, который позволяет разработчикам определять объем рассуждений, применяемых моделью перед генерацией ответа.
Подобный механизм присутствует и в других недавних релизах с открытым исходным кодом, включая Nemotron-Nano-9B-v2 от Nvidia, также доступный через Hugging Face.
С практической точки зрения, это позволяет командам калибровать производительность в зависимости от сложности задачи и эффективности развертывания.
Бюджетные значения указываются кратно 512 жетонам, при этом 0 включает режим прямого ответа.
Конкурентоспособная производительность в сторонних бенчмарках
Опубликованные результаты бенчмарков ставят Seed-OSS-36B в один ряд с самыми производительными крупными моделями с открытым исходным кодом. Версия Instruct, в особенности, достигает передовых результатов в нескольких областях.
- Математика и рассуждения: Seed-OSS-36B-Instruct набирает 91,7% в AIME24 и 65 баллов в BeyondAIME, что соответствует передовому уровню производительности с открытым исходным кодом (SOTA).
- Кодирование: В LiveCodeBench v6 модель Instruct достигает 67,4 балла, что является еще одним показателем SOTA.
- Возможность работы с длинными контекстами: В RULER при длине контекста 128 Кбайт она достигает 94,6, что является самым высоким результатом среди открытых источников.
- Производительность базовой модели: Вариант Base с синтетическими данными получает 65,1 балла на MMLU-Pro и 81,7 балла на MATH - оба результата лидируют в своих категориях.
Несинтетическая модель Base, хотя и немного отстает по нескольким метрикам, остается конкурентоспособной сама по себе.
Она превосходит синтетическую версию по GPQA-D, предоставляя исследователям более чистый, нейтральный к инструкциям базовый уровень для тестирования.
Для компаний, оценивающих открытые альтернативы, эти результаты показывают, что Seed-OSS имеет большие перспективы для приложений с интенсивным математическим анализом, кодированием и длинным контекстом, сохраняя при этом гибкость для исследовательских сценариев.
Доступ и развертывание
Помимо производительности, команда Seed Team уделяет особое внимание доступности для разработчиков. Модели развертываются с помощью Hugging Face Transformers, с квантованием в 4- и 8-битных форматах для минимизации использования памяти.
Они также интегрируются с vLLM для масштабируемого обслуживания, в комплекте с примерами настройки и рекомендациями по работе с сервером API.
Чтобы еще больше упростить внедрение, команда предоставляет скрипты для вывода, настройки подсказок и интеграции инструментов.
Для технических руководителей, управляющих небольшими командами или работающих в условиях ограниченного бюджета, эти ресурсы помогут сделать эксперименты с моделями на 36 миллиардов параметров более осуществимыми.
Лицензирование и соображения для руководителей предприятий
Доступные под лицензией Apache-2.0, эти модели могут быть приняты без ограничительного лицензирования, что является значительным преимуществом для команд, взвешивающих юридические и операционные факторы.
Для руководителей, оценивающих экосистему с открытым исходным кодом, этот выпуск выделяет три ключевых момента:
- Лучшие результаты бенчмарков в математике, кодировании и рассуждениях в длинном контексте.
- Баланс между высокопроизводительными синтетическими моделями и беспристрастными базовыми исследованиями.
- Функции доступности, которые снижают операционную сложность для оптимизированных инженерных подразделений.
Сочетая высокую производительность и адаптируемое развертывание под открытой лицензией, команда семян ByteDance расширила возможности, доступные компаниям, исследователям и разработчикам.
ИИ раскрывает скрытые мотивы в новостном контенте
Модели в стиле ChatGPT сейчас обучаются выявлять основную точку зрения новостной статьи — даже если эта точка зрения скрыта за цитатами, формулировками или фасадом (иногда неискренней) нейтральности.
TikTok запускает переключатель для ограничения контента на основе искусственного интеллекта в ленте
TikTok, изначально являвшийся центром для видео, созданных пользователями, вводит новую функцию, которая позволяет пользователям регулировать количество контента, созданного искусственным интеллектом,
Claude 4.1 от Anthropic превосходит GPT-5 по результатам тестов на кодирование перед запуском GPT-5
В понедельник компания Anthropic представила усовершенствованную версию своей ведущей модели искусственного интеллекта, установив новый стандарт производительности в области программного обеспечения.





Дом






