ByteDance 的开源 Seed-OSS-36B 型号支持 512K 令牌上下文

在白宫加入这一热门社交媒体平台之后,TikTok 再次成为新闻焦点,但其母公司、中国大型科技公司字节跳动也宣布了一个令人惊喜的消息。
该公司的人工智能研究部门 "种子团队 "今天在人工智能代码库 "Hugging Face "上发布了种子-OSS-36B。
Seed-OSS-36B 是一系列新的开源大型语言模型(LLM),专为复杂推理和开发者友好使用而构建,与许多美国开发的竞争模型(包括 OpenAI 和 Anthropic 的领先模型)相比,具有更长的标记上下文。
该系列包括三个主要变体:
- 带有合成数据的 Seed-OSS-36B-Base
- 不含合成数据的种子-OSS-36B-Base
- Seed-OSS-36B-Instruct
通过发布 Seed-OSS-36B-Base 模型的合成和非合成版本,种子团队旨在平衡现实世界的性能和研究适应性。
使用补充指令数据训练的合成数据版本在既定基准上取得了更强的结果,旨在成为性能更高的通用模型。
相比之下,非合成模型去除了这些增强功能,提供了一个更清晰的基础,减少了合成指令数据可能带来的偏差。
通过提供这两种变体,该团队为实际用户提供了更好的结果,同时也为研究人员提供了一个无偏见的基线,用于研究后期培训技术。
同时,Seed-OSS-36B-Instruct 模型使用指令数据进行后期训练,重点关注任务执行和指令遵守情况,而不仅仅是作为一个基础模型。
这三个模型都获得了 Apache-2.0 许可,允许企业研究人员和开发人员自由使用、修改和共享。
这意味着它们可以集成到商业应用中,无论是用于内部运营还是面向客户的服务,字节舞团都不收取许可费或API费。
这顺应了2025年中期中国公司推出先进开源模型的趋势,同时OpenAI也在努力跟上自己最近发布的开源gpt-oss duet的步伐。
种子团队设计的Seed-OSS面向全球使用,强调其在推理、任务导向功能和多语言环境方面的适应性。
种子团队成立于 2023 年,致力于创建适合研究和实际应用的基础模型。
设计与核心功能
Seed-OSS-36B 的结构融合了公认的设计元素,如因果语言建模、分组查询关注、SwiGLU 激活、RMSNorm 和 RoPE 位置编码。
每个模型包含分布在 64 层的 360 亿个参数,支持 155,000 个词库。
它的一个显著特点是其固有的长语境能力,可支持多达 512,000 个标记,在处理冗长文档和逻辑序列时不会出现性能下降。
这相当于 OpenAI 新的 GPT-5 系列容量的两倍,也相当于约 1,600 页文本的长度--大致相当于基督教《圣经》的大小。
另一个突出的特点是思维预算,它允许开发人员定义模型在生成答案之前所应用的推理量。
类似的机制也出现在最近发布的其他开源软件中,包括英伟达(Nvidia)的Nemotron-Nano-9B-v2,也可以通过Hugging Face访问。
在实际应用中,这使团队能够根据任务的复杂程度和部署效率需求来校准性能。
预算值以 512 代币的倍数为单位,0 为直接响应模式。
在第三方基准测试中具有竞争力的性能
已公布的基准测试结果显示,Seed-OSS-36B 是性能最好的大型开源模型之一。尤其是 Instruct 版本,在多个领域都取得了领先的成绩。
- 数学和推理:种子-OSS-36B-Instruct 在 AIME24 和 BeyondAIME 中的得分分别为 91.7% 和 65%,代表了最先进的开源 (SOTA) 性能。
- 编码:在 LiveCodeBench v6 中,Instruct 模型的得分达到 67.4,这也是另一个 SOTA 指标。
- 长上下文能力:在 128K 上下文长度的 RULER 上,它达到了 94.6,这是报告的最高开源结果。
- 基础模型性能:合成数据 Base 变体在 MMLU-Pro 上的得分为 65.1,在 MATH 上的得分为 81.7,这两项成绩在同类产品中均处于领先地位。
非合成 Base 模型虽然在多项指标上略有落后,但其本身仍具有竞争力。
它在 GPQA-D 上的表现优于合成版本,为研究人员提供了一个更简洁、不受指令影响的测试基线。
对于评估开放式替代方案的企业来说,这些结果表明,Seed-OSS 在数学密集型、编码和长语境应用中大有可为,同时还为研究方案保留了灵活性。
访问和部署
除了性能,种子团队还强调开发人员的可访问性。这些模型可通过拥抱面变换器进行部署,并以 4 位和 8 位格式进行量化,以尽量减少内存使用。
它们还与 vLLM 集成,可提供可扩展的服务,并提供完整的设置示例和 API 服务器指南。
为了进一步简化应用,该团队提供了用于推理、提示定制和工具集成的脚本。
对于管理小型团队或预算有限的技术负责人来说,这些资源有助于使 36 亿参数模型的实验变得更加可行。
许可和企业决策者的注意事项
这些模型在 Apache-2.0 下提供,无需限制性许可即可采用,这对于权衡法律和运营因素的团队来说是一大优势。
对于评估开源生态系统的领导者来说,本次发布强调了三个要点:
- 数学、编码和长语境推理方面的顶级基准结果。
- 高性能合成训练模型和无偏见研究基线之间的平衡。
- 可访问性功能可降低操作复杂性,从而简化工程单位。
ByteDance 种子团队将高性能与开放许可下的适应性部署相结合,扩大了公司、研究人员和开发人员的选择范围。
相关文章
人工智能揭示新闻内容中的隐藏议程
ChatGPT类模型正被训练以揭示新闻报道背后的潜在立场——即便这种观点被引语、叙事框架或(有时虚伪的)中立表象所掩盖。通过将文章拆解为标题、导语和引语等段落,新型系统能识别长篇专业新闻报道中的偏见。 这种洞悉作者或发言者真实立场的技术(学术文献中称为立场检测),正攻克语言解读中最复杂的难题之一:从可能刻意设计来掩盖或模糊意图的内容中辨别真实意图。从乔纳森·斯威夫特的《一个谦卑的建议》到当代政治表
TikTok推出开关功能,可限制信息流中人工智能生成的内容
TikTok最初是一个用户原创视频的聚集地,如今正推出一项新功能,允许用户调节其"为你推荐"信息流中人工智能生成内容的占比。该平台还部署了更先进的标记技术,用于识别此类人工智能创作的内容。这项针对AI生成内容(AIGC)的新控制功能将整合至TikTok的"管理主题"工具中,该工具旨在帮助用户定制信息流体验。 TikTok在博客声明中表示:"现有话题管理功能已支持用户精细调节舞蹈、体育、美食
Anthropic的Claude 4.1在编程基准测试中表现优异,领先于即将发布的GPT-5
周一,Anthropic公司发布了其旗舰人工智能模型的增强版,为软件工程任务的性能树立了新标杆。此次发布使这家人工智能初创企业得以捍卫其在利润丰厚的编码领域的优势地位,同时为应对OpenAI即将带来的新竞争做好准备。新版Claude Opus 4.1模型在SWE-bench认证测试中斩获74.5%的得分,该测试是评估AI系统解决实际软件问题能力的权威基准。这一成绩超越了OpenAI o3模型的69
相关专题推荐
评论 (0)
0/500

在白宫加入这一热门社交媒体平台之后,TikTok 再次成为新闻焦点,但其母公司、中国大型科技公司字节跳动也宣布了一个令人惊喜的消息。
该公司的人工智能研究部门 "种子团队 "今天在人工智能代码库 "Hugging Face "上发布了种子-OSS-36B。
Seed-OSS-36B 是一系列新的开源大型语言模型(LLM),专为复杂推理和开发者友好使用而构建,与许多美国开发的竞争模型(包括 OpenAI 和 Anthropic 的领先模型)相比,具有更长的标记上下文。
该系列包括三个主要变体:
- 带有合成数据的 Seed-OSS-36B-Base
- 不含合成数据的种子-OSS-36B-Base
- Seed-OSS-36B-Instruct
通过发布 Seed-OSS-36B-Base 模型的合成和非合成版本,种子团队旨在平衡现实世界的性能和研究适应性。
使用补充指令数据训练的合成数据版本在既定基准上取得了更强的结果,旨在成为性能更高的通用模型。
相比之下,非合成模型去除了这些增强功能,提供了一个更清晰的基础,减少了合成指令数据可能带来的偏差。
通过提供这两种变体,该团队为实际用户提供了更好的结果,同时也为研究人员提供了一个无偏见的基线,用于研究后期培训技术。
同时,Seed-OSS-36B-Instruct 模型使用指令数据进行后期训练,重点关注任务执行和指令遵守情况,而不仅仅是作为一个基础模型。
这三个模型都获得了 Apache-2.0 许可,允许企业研究人员和开发人员自由使用、修改和共享。
这意味着它们可以集成到商业应用中,无论是用于内部运营还是面向客户的服务,字节舞团都不收取许可费或API费。
这顺应了2025年中期中国公司推出先进开源模型的趋势,同时OpenAI也在努力跟上自己最近发布的开源gpt-oss duet的步伐。
种子团队设计的Seed-OSS面向全球使用,强调其在推理、任务导向功能和多语言环境方面的适应性。
种子团队成立于 2023 年,致力于创建适合研究和实际应用的基础模型。
设计与核心功能
Seed-OSS-36B 的结构融合了公认的设计元素,如因果语言建模、分组查询关注、SwiGLU 激活、RMSNorm 和 RoPE 位置编码。
每个模型包含分布在 64 层的 360 亿个参数,支持 155,000 个词库。
它的一个显著特点是其固有的长语境能力,可支持多达 512,000 个标记,在处理冗长文档和逻辑序列时不会出现性能下降。
这相当于 OpenAI 新的 GPT-5 系列容量的两倍,也相当于约 1,600 页文本的长度--大致相当于基督教《圣经》的大小。
另一个突出的特点是思维预算,它允许开发人员定义模型在生成答案之前所应用的推理量。
类似的机制也出现在最近发布的其他开源软件中,包括英伟达(Nvidia)的Nemotron-Nano-9B-v2,也可以通过Hugging Face访问。
在实际应用中,这使团队能够根据任务的复杂程度和部署效率需求来校准性能。
预算值以 512 代币的倍数为单位,0 为直接响应模式。
在第三方基准测试中具有竞争力的性能
已公布的基准测试结果显示,Seed-OSS-36B 是性能最好的大型开源模型之一。尤其是 Instruct 版本,在多个领域都取得了领先的成绩。
- 数学和推理:种子-OSS-36B-Instruct 在 AIME24 和 BeyondAIME 中的得分分别为 91.7% 和 65%,代表了最先进的开源 (SOTA) 性能。
- 编码:在 LiveCodeBench v6 中,Instruct 模型的得分达到 67.4,这也是另一个 SOTA 指标。
- 长上下文能力:在 128K 上下文长度的 RULER 上,它达到了 94.6,这是报告的最高开源结果。
- 基础模型性能:合成数据 Base 变体在 MMLU-Pro 上的得分为 65.1,在 MATH 上的得分为 81.7,这两项成绩在同类产品中均处于领先地位。
非合成 Base 模型虽然在多项指标上略有落后,但其本身仍具有竞争力。
它在 GPQA-D 上的表现优于合成版本,为研究人员提供了一个更简洁、不受指令影响的测试基线。
对于评估开放式替代方案的企业来说,这些结果表明,Seed-OSS 在数学密集型、编码和长语境应用中大有可为,同时还为研究方案保留了灵活性。
访问和部署
除了性能,种子团队还强调开发人员的可访问性。这些模型可通过拥抱面变换器进行部署,并以 4 位和 8 位格式进行量化,以尽量减少内存使用。
它们还与 vLLM 集成,可提供可扩展的服务,并提供完整的设置示例和 API 服务器指南。
为了进一步简化应用,该团队提供了用于推理、提示定制和工具集成的脚本。
对于管理小型团队或预算有限的技术负责人来说,这些资源有助于使 36 亿参数模型的实验变得更加可行。
许可和企业决策者的注意事项
这些模型在 Apache-2.0 下提供,无需限制性许可即可采用,这对于权衡法律和运营因素的团队来说是一大优势。
对于评估开源生态系统的领导者来说,本次发布强调了三个要点:
- 数学、编码和长语境推理方面的顶级基准结果。
- 高性能合成训练模型和无偏见研究基线之间的平衡。
- 可访问性功能可降低操作复杂性,从而简化工程单位。
ByteDance 种子团队将高性能与开放许可下的适应性部署相结合,扩大了公司、研究人员和开发人员的选择范围。
人工智能揭示新闻内容中的隐藏议程
ChatGPT类模型正被训练以揭示新闻报道背后的潜在立场——即便这种观点被引语、叙事框架或(有时虚伪的)中立表象所掩盖。通过将文章拆解为标题、导语和引语等段落,新型系统能识别长篇专业新闻报道中的偏见。 这种洞悉作者或发言者真实立场的技术(学术文献中称为立场检测),正攻克语言解读中最复杂的难题之一:从可能刻意设计来掩盖或模糊意图的内容中辨别真实意图。从乔纳森·斯威夫特的《一个谦卑的建议》到当代政治表
TikTok推出开关功能,可限制信息流中人工智能生成的内容
TikTok最初是一个用户原创视频的聚集地,如今正推出一项新功能,允许用户调节其"为你推荐"信息流中人工智能生成内容的占比。该平台还部署了更先进的标记技术,用于识别此类人工智能创作的内容。这项针对AI生成内容(AIGC)的新控制功能将整合至TikTok的"管理主题"工具中,该工具旨在帮助用户定制信息流体验。 TikTok在博客声明中表示:"现有话题管理功能已支持用户精细调节舞蹈、体育、美食
Anthropic的Claude 4.1在编程基准测试中表现优异,领先于即将发布的GPT-5
周一,Anthropic公司发布了其旗舰人工智能模型的增强版,为软件工程任务的性能树立了新标杆。此次发布使这家人工智能初创企业得以捍卫其在利润丰厚的编码领域的优势地位,同时为应对OpenAI即将带来的新竞争做好准备。新版Claude Opus 4.1模型在SWE-bench认证测试中斩获74.5%的得分,该测试是评估AI系统解决实际软件问题能力的权威基准。这一成绩超越了OpenAI o3模型的69





首页






