选项
首页
新闻
Hy3 预览:元重构后的首个开源版本,实用性和代理能力均得到增强

Hy3 预览:元重构后的首个开源版本,实用性和代理能力均得到增强

2026-06-01
21

4月23日,腾讯幻元发布了开源语言模型Hy3preview。 这一混合专家模型融合了快速推理与慢速推理,总参数达2950亿,有效参数210亿,支持长达256K的上下文长度。作为幻元重构后的首个训练模型,它也是幻元历史上最智能的模型,在复杂推理、指令执行、上下文学习、代码生成、智能体能力以及整体推理性能方面均实现了显著提升。

2026年2月,腾讯幻元重构了预训练与强化学习基础设施,并确立了实现实用价值的三大指导原则:

1. 系统化能力:我们不强调专业化,而是认识到即使是代码代理这样的单一应用,也需要推理、长上下文处理、指令执行、对话、编码和工具使用等能力的深度协作。

2. 真实评估:超越易被钻空子的公开基准,我们通过自研试题、最新考试题库、人工评估、产品专属众测及其他方法,评估并提升模型在现实世界中的有效性。

3. 注重成本效益:实用性必须与商业可行性相契合。深度协同设计的模型架构与推理框架显著降低了任务成本,使AI既经济实惠又高效实用。

Hy3preview标志着幻元加速推进解决现实世界问题的实用型大型语言模型的征程。

腾讯首席AI科学家姚顺宇指出,Hy3preview是幻源模型重构的第一步。通过此次开源发布,我们期待获得来自社区和用户的真实反馈,这将有助于完善正式版Hy3的实用性。 与此同时,我们持续扩大预训练和强化学习的规模,不断突破模型智能的上限。通过与众多腾讯产品的深度协同设计,我们稳步提升模型的实际应用表现,并开始探索专用模型能力。

目前,Hy3preview 已在腾讯云、Yua、ima、CodeBuddy、WorkBuddy、QQ、QQ浏览器、腾讯文档和腾讯乐享上线。微信官方账号、和平精英、腾讯新闻、腾讯选股、腾讯客服和微信阅读等其他主要产品也正在逐步上线。 此外,Hy3preview 已与 OpenClaw、OpenCode、KiloCode 等主流开源代理框架实现集成,并入驻腾讯云大模型服务平台 TokenHub。

Hy3preview 注重全方位的实用性,智能代理能力显著提升

多项评估证实,Hy3preview 的能力已获得全面提升。

1.出色的上下文学习与指令遵循能力

在多样化的真实生产和日常场景中,解析杂乱冗长的上下文并遵循复杂且不断变化的规则,仍是模型面临的关键挑战。基于腾讯的业务用例,Huan Yuan 推出了 CL-bench 和 CL-bench-Life,以创新的方式评估上下文学习能力,并显著增强了 Hy3preview 的上下文学习和指令遵循能力。

image.png

2. 卓越的复杂推理能力,在中国清华大学数学博士资格考试中取得最高分

复杂推理能力是模型解决各类问题的基础。Hy3preview在FrontierScience-Olympiad和IMOAnswerBench等高难度STEM推理基准测试中表现优异,并在最新一届清华大学曲真学院数学博士资格考试(2026年春季)及全国高中生物竞赛(CHSBO2025)中取得优异成绩,展现出强大的泛化推理能力。

image.png

3. 代码与智能体能力取得重大突破,展现出强劲的成本效益

代码与智能体能力是 Hy3preview 最显著的改进。得益于重构的预训练和强化学习基础设施,以及强化学习任务规模的扩大,腾讯幻元在 SWE-Bench Verified 和 Terminal-Bench2.0 等主流代码智能体基准测试,以及 BrowseComp 和 WideSearch 等搜索智能体基准测试中,迅速取得了具有竞争力的成绩。

image.png

在数字领域,代码能力衡量模型在开发环境中执行任务的能力,而搜索能力则评估其从公开来源检索、筛选和综合信息的能力。这两者共同决定了模型在OpenClaw等复杂智能体场景中是否真正有用。Hy3preview在ClawEval和WildClawBench等评估中取得了优异成绩,表明我们的智能体能力正稳步朝着完备性和实用性迈进。

image.png

除公开基准测试外,腾讯幻元还构建了多套内部评估体系,以衡量模型在真实开发场景中的表现。结果表明,在后端工程任务集Hy-Backend、面向开发者的Hy-Vibe Bench以及高难度软件工程集Hy-SWE Max中,Hy3preview均展现出强劲的竞争力。

48920987-bdbb-464b-adca-513891f742e1.png

在对比开源替代方案的模型规模与整体智能体性能时,Hy3preview 因其高性价比而脱颖而出。

image.png

腾讯核心业务深度融合,多款关键AI产品成效显著

在正式发布前,Hy3preview已在腾讯主要AI产品中经过测试,并取得了显著的积极成效。

在 Yua 方面,Huan Yuan 与 Yua 进行了深度协同设计。模型在意图理解准确率、文本生成质量和深度搜索等关键指标上的性能得到提升,同时针对写作风格、表达、情感智能、内容结构和专业性进行了微调。这种紧密的模型与产品协作,为用户带来了更智能、更类人的交互体验。

在ima的知识库问答和通用问答场景中,测试表明Hy3preview在长文本处理方面表现卓越,尤其在检索任务中,其回答具有高准确率、高覆盖率和高全面性。

在CodeBuddy和WorkBuddy中,Hy3preview的首词延迟降低了54%,端到端耗时缩短了47%,成功率攀升至99.99%以上。在真实用户环境中,它能稳定驱动多达495步的复杂智能代理工作流,涵盖文档处理、数据分析、知识检索及MCP工具链编排等各类办公任务。

在针对微信官方账号AI虚拟助手和AI客服的专项评估中,Hy3preview相较于Hy2实现了更全面的升级。它在用户意图理解、复杂上下文延续以及知识组织方面展现出更高的成熟度。 在处理模糊查询、短句及多轮对话时,它能更准确地把握用户需求,并生成更清晰、更稳定的回复。通过整合知识库、用户记忆和上下文生成机制,其输出结果与AI虚拟形象或客服角色更为契合,显著减少了过度想象、主观臆断和情绪化表达,使整体交互体验更趋近于“可信、自然、高效”。

在《和平精英》的AI NPC场景中,团队在Hy3preview发布后迅速将其集成并进行评估,取得了令人印象深刻的整体成果。 在游戏外的角色扮演场景中,Hy3preview准确把握角色设定,针对开放式问题提供高度相关且具有附加值的内容,营造出更真实、自然、沉浸式的对话体验。在复杂的游戏内战斗场景中,该模型的响应时序与真实玩家极为接近,展现出卓越的稳定性和类人角色扮演能力,整体表现极为出色。

在腾讯文档的AI PPT场景中,相较于前代Hy2版本,Hy3preview表现显著提升:生成成功率提升20%,评估分数提高10%,生成时间缩短20%。总体而言,新模型在模板选择、配色方案、大纲生成及内容补充方面表现优异——无幻觉、主题契合且视觉吸引力强。

在QQ智能助手“小Q”方面,相较于前一版本,Hy3preview在长文本首字节延迟、整体响应速度及流式处理效率上实现了重大优化。数学推理等核心能力显著提升,多场景指令执行与泛化能力也得到进一步增强。 在工具调用推理和多轮引用解析方面,其表现更为稳定高效。在OpenClaw官方PinchBench QQ智能代理场景测试中,该模型取得了优异成绩,整体用户体验显著提升。

推理效率提升40%,在同等成本下实现最优智能密度

得益于模型与推理框架的深度协同,以及在推理框架、运算子性能、量化算法等方面的全面优化,整体推理效率提升了40%,Hy3preview的成本相较上一代产品大幅降低。

在腾讯云的大模型服务平台 TokenHub 上,Hy3preview 的输入价格低至每百万令牌 1.2 元,输入缓存为每百万令牌 0.4 元,输出为每百万令牌 4 元。 此外,腾讯云与幻元联合推出了定制化的Hy3preview代币套餐,个人版月费低至28元,为智能体开发和构建“龙虾”应用提供了高性价比的选择。

image.png

image.png

相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能 广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 Anthropic公司的实验性人工智能Claude在电子商务测试中完成了谈判和交易 随着人工智能的飞速发展,Anthropic上周五悄然启动了一项名为“Project Deal”的内部实验,展示了人工智能在电子商务领域的潜力。该实验让其人工智能模型Claude在封闭的市场环境中自主处理买卖及价格谈判,并涉及真实的金融交易。实验的核心是一个基于Slack构建的内部市场,Claude在其中同时担任买卖双方的谈判代表。它首先对69名员工进行了访谈,收集了他们的买卖意向及个性化指示,随后
DeepSeek Code 即将发布 DeepSeek Code 即将发布 随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
相关专题推荐
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
聊天机器人 最佳AI调情与对话训练工具:实时提升社交魅力与自信
最佳AI调情与对话训练工具:实时提升社交魅力与自信

在 XIX.AI 上探索 2026 年最优秀的 AI 调情与对话训练工具。我们精心挑选的高评分工具助您实时提升社交魅力与自信。探索这些必试的、颠覆性的工具,查看免费版与付费版的对比,并了解每周更新的排行榜。立即开启您的社交优势。

10 个工具
xix.ai
代码 最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例
最适合自动化单元测试的最佳AI工具:一键生成Jest、PyTest和JUnit测试用例

探索2026年最新评选出的顶级AI工具,这些工具专为自动化单元测试而设计。我们精心挑选了那些功能强大、能够改变开发流程的工具,它们能够帮助您快速生成Jest、PyTest和JUnit测试用例。在XIX.AI平台上,您可以免费查看各种选项,并通过实际测试结果以及每周更新的排名来了解它们的优劣。立即利用这些AI工具,提升您的开发效率吧!

10 个工具
xix.ai
评论 (0)
0/500
OR