选项
首页
新闻
字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力

字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力

2025-08-23
0

高级推理AI的竞赛始于2024年9月OpenAI的o1模型,随着2025年1月DeepSeek的R1发布而加速。

主要AI开发者现正竞相打造更快、更具成本效益的推理AI模型,通过链式思考过程提供精确、深思熟虑的回答,确保回答前的准确性。

字节跳动,TikTok的母公司,推出了Seed-Thinking-v1.5,这是一个在技术论文中概述的新大型语言模型(LLM),旨在提升STEM和通用领域的推理能力。

该模型尚未发布,其许可模式——无论是专有、开源还是混合——仍未披露。然而,该论文提供了值得在发布前探索的关键见解。

继Meta的Llama 4和Mistral的Mixtral之后,Seed-Thinking-v1.5采用了专家混合(MoE)架构。

这种方法通过整合多个专注于不同领域的专业模型来提升效率。

Seed-Thinking-v1.5一次仅使用其2000亿参数中的200亿,优化了性能。

字节跳动在GitHub上发布的论文强调了该模型专注于结构化推理和深思熟虑的回答生成。

它超越了DeepSeek R1,并在第三方基准测试中与Google的Gemini 2.5 Pro和OpenAI的o3-mini-high匹敌,甚至在ARC-AGI基准测试中表现出色,该基准是衡量向通用人工智能进展的关键指标,超越了OpenAI标准下人类在经济价值任务中的表现。

作为紧凑而强大的替代大型模型,Seed-Thinking-v1.5通过创新的强化学习、精选训练数据和先进的AI基础设施实现了强劲的基准测试结果。

基准测试表现与核心优势

Seed-Thinking-v1.5在困难任务中表现出色,在AIME 2024上得分86.7%,在Codeforces上pass@8得分55.0%,在GPQA科学基准测试中得分77.3%,在推理指标上接近或超越OpenAI的o3-mini-high和Google的Gemini 2.5 Pro等模型。

在非推理任务中,它比DeepSeek R1高出8.0%的人类偏好胜率,展示了逻辑和数学之外的多样性。

为应对基准测试饱和,字节跳动创建了BeyondAIME,一个更难的数学基准测试,以抵制记忆并更好地评估模型性能。这与Codeforces数据集一起,将公开发布以助力未来研究。

训练数据策略

数据质量在开发Seed-Thinking-v1.5中至关重要。用于监督微调的40万个样本经过精心挑选:30万个可验证的STEM、逻辑和编码任务,以及10万个不可验证的任务,如创意写作。

用于强化学习的数据分为:

  • 可验证问题:从精英竞赛中精心挑选的10万个STEM问题和逻辑谜题,由专家验证。
  • 不可验证任务:用于开放式提示的人类偏好数据集,通过成对奖励模型评估。

超过80%的STEM数据专注于高级数学,逻辑任务如数独和24点谜题按模型进展进行扩展。

强化学习创新

Seed-Thinking-v1.5使用定制的actor-critic(VAPO)和策略梯度(DAPO)框架来稳定强化学习,解决长链式思考场景中的问题。

两个奖励模型增强了强化学习监督:

  • Seed-Verifier:基于规则的LLM,确保生成答案与参考答案的数学等价性。
  • Seed-Thinking-Verifier:基于推理的评判模型,保持一致性评估,抵御奖励操控。

这一双重系统支持简单和复杂任务的精确评估。

可扩展的基础设施设计

字节跳动的HybridFlow框架,由Ray集群提供支持,支持高效的大规模训练,通过协同定位训练和推理以最小化GPU空闲时间。

流式推出系统(SRS)将模型演化与运行时分离,通过异步管理部分生成,将迭代速度提高至三倍。

其他技术包括:

  • 混合精度(FP8)以提高内存效率
  • 专家并行和内核自动调优以优化MoE
  • ByteCheckpoint用于稳健的检查点
  • AutoTuner用于优化的并行和内存设置

以人为本的评估与实际应用

在创意写作、人文学科和一般对话的人类测试中,Seed-Thinking-v1.5超越了DeepSeek R1,证明了其现实世界的相关性。

团队指出,在可验证任务上的训练增强了对创意领域的泛化能力,这是由严格的数学工作流程驱动的。

对技术团队和企业的意义

对于管理LLM生命周期的技术领导者,Seed-Thinking-v1.5提供了一个将高级推理整合到企业AI系统中的模型。

其模块化训练,结合可验证数据集和多阶段强化学习,适合需要精确控制的LLM开发团队。

Seed-Verifier和Seed-Thinking-Verifier增强了可信的奖励建模,对于面向客户或受监管的环境至关重要。

对于时间紧迫的团队,VAPO和动态采样减少了迭代周期,简化了特定任务的微调。

混合基础设施,包括SRS和FP8优化,提升了训练吞吐量和硬件效率,适用于云和本地系统。

模型的自适应奖励反馈解决了管理多样化数据管道的挑战,确保跨领域的一致性。

对于数据工程师,严格的数据过滤和专家验证的重点强调了高质量数据集在提升模型性能中的价值。

未来展望

由吴永辉领导、林海滨公开代表的字节跳动Seed LLM系统团队开发的Seed-Thinking-v1.5,基于Doubao 1.5 Pro的努力,采用了共享的RLHF和数据精选技术。

团队旨在改进强化学习,专注于训练效率和不可验证任务的奖励建模。发布BeyondAIME等基准测试将推动推理导向的AI研究的进一步进展。

相关文章
谷歌发布A2A协议以增强AI代理互操作性 谷歌发布A2A协议以增强AI代理互操作性 AI代理处理复杂的重复任务,如供应链管理和设备采购。随着组织采用来自不同供应商和框架的代理,这些代理往往变得孤立,无法有效协作。互操作性挑战持续存在,代理有时会提供矛盾的建议。标准化AI工作流程仍然困难,整合代理通常需要中间件,增加了额外的复杂性和潜在的故障点。谷歌的A2A协议标准化AI代理协作在2025年Cloud Next大会上,谷歌推出了其Agent2Agent(A2A)协议,这是一个开放框
Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo与Google Cloud合作,为开发者提供免费AI代码审查工具 Qodo,一家专注于代码质量的以色列AI编码初创公司,已与Google Cloud建立合作关系,以增强AI生成软件的完整性。随着企业越来越依赖AI进行编码,对强大的监督和质量保证工具的需求不断增长。Qodo的首席执行官伊塔马尔·弗里德曼指出,AI生成的代码现已成为现代开发的核心。“想象一个未来,AI编写所有代码;人类无法全部审查,”弗里德曼说。“我们需要系统来确保代码符合预期价值观。”Qodo的创
Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce发布Slack AI数字队友对抗Microsoft Copilot Salesforce推出全新职场AI策略,在Slack对话中引入专业“数字队友”,公司于周一公布。新工具Agentforce in Slack使企业能够创建和部署任务特定AI代理,搜索职场聊天,访问公司数据,并在员工日常使用的消息平台内执行操作。“正如专业员工协作解决问题,我们的客户需要AI代理协同工作,为客户和员工解决问题,”Salesforce Slack首席产品官Rob Seaman在Ven
评论 (0)
0/200
返回顶部
OR