阿里巴巴开源的 问云 人工智能模型在推理方面打破纪录
阿里巴巴的 Qwen 团队发布了新版开源推理人工智能模型,并展示了出色的基准测试结果。
Introducing Qwen3-235B-A22B-Thinking-2507.在过去的三个月里,Qwen 团队一直在大力提升模型的 "思考能力",努力提高推理过程的质量和深度。
其结果是,该模型在逻辑推理、复杂数学、科学挑战和高级编码等要求最苛刻的领域真正大放异彩。在通常需要人类专业知识的领域,最新的 Qwen 模型为开源人工智能树立了新的标杆。
在推理基准测试中,Qwen 最新的开源人工智能模型在 AIME25 中获得 92.3 分,在 LiveCodeBench v6 编码测试中获得 74.1 分。它在更广泛的能力评估中也表现出色,在Arena-Hard v2(一项评估与人类偏好一致性的指标)上获得了79.7分。

从根本上说,这是一个来自 Qwen 团队的大规模推理人工智能模型,共有 2,350 亿个参数。不过,它采用了专家混合(MoE)架构,这意味着在任何特定时间,只有这些参数的一个子集--约 220 亿个参数--处于活动状态。可以把它想象成一个由 128 名专家组成的庞大团队,随时待命,但只有负责特定任务的前八名专家在实际工作。
Qwen 的突出特点之一是其超强的内存容量。Qwen 的开源人工智能推理模型原生支持 262,144 个词块的上下文长度,为需要理解大量信息的任务提供了显著优势。
对于开发者和爱好者来说,Qwen 团队简化了入门流程。该模型可在 Hugging Face 上访问,并可使用 sglang 或 vllm 等工具进行部署,以建立个人 API 端点。该团队还强调,他们的 Qwen-Agent 框架是利用该模型的工具调用功能的最佳方法。
为使这一开源人工智能推理模型达到最佳性能,Qwen 团队提出了几项建议。他们建议标准任务的输出长度为 32,768 个标记左右,但对于高度复杂的问题,可将输出长度增加到 81,920 个标记,让人工智能有足够的空间 "思考"。他们还建议在提示中使用明确的说明,例如要求对数学问题采用 "逐步推理 "的方法,以获得最精确、最有条理的回答。
新 Qwen 模型的推出提供了一个强大的开源推理人工智能,能够与领先的专有模型竞争,尤其是在应对复杂、智力要求高的挑战方面。我们将拭目以待开发者社区利用这项技术创造出怎样的成果。
另请参见人工智能行动计划:美国的领导地位必须 "不受挑战
想从行业专家那里加深对人工智能和大数据的了解?参加在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这一综合性活动将与智能自动化大会(Intelligent Automation Conference)、BlockX、数字转型周(Digital Transformation Week)和网络安全与云博览会(Cyber Security & Cloud Expo)等其他重要会议同时举行。
点击此处了解由 TechForge 提供支持的更多即将举行的企业技术活动和网络研讨会。
相关文章
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Kakao Mobility 概述了面向物理人工智能的 L4 级自动驾驶路线图
Kakao Mobility 计划内部自主研发 L4 级自动驾驶技术,作为其物理人工智能战略的一部分。在首尔COEX举行的2026世界IT展上,Kakao Mobility副总裁兼物理AI部门负责人金镇奎(Kim Jin-kyu)介绍了该路线图。他的演讲聚焦于物理AI时代基于出行平台构建的自动驾驶服务。据韩联社报道,这场题为“超越构想,付诸行动:AI驱动现实”的活动汇聚了来自17个国家的460
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问
相关专题推荐
评论 (1)
0/500
阿里巴巴的 Qwen 团队发布了新版开源推理人工智能模型,并展示了出色的基准测试结果。
Introducing Qwen3-235B-A22B-Thinking-2507.在过去的三个月里,Qwen 团队一直在大力提升模型的 "思考能力",努力提高推理过程的质量和深度。
其结果是,该模型在逻辑推理、复杂数学、科学挑战和高级编码等要求最苛刻的领域真正大放异彩。在通常需要人类专业知识的领域,最新的 Qwen 模型为开源人工智能树立了新的标杆。
在推理基准测试中,Qwen 最新的开源人工智能模型在 AIME25 中获得 92.3 分,在 LiveCodeBench v6 编码测试中获得 74.1 分。它在更广泛的能力评估中也表现出色,在Arena-Hard v2(一项评估与人类偏好一致性的指标)上获得了79.7分。

从根本上说,这是一个来自 Qwen 团队的大规模推理人工智能模型,共有 2,350 亿个参数。不过,它采用了专家混合(MoE)架构,这意味着在任何特定时间,只有这些参数的一个子集--约 220 亿个参数--处于活动状态。可以把它想象成一个由 128 名专家组成的庞大团队,随时待命,但只有负责特定任务的前八名专家在实际工作。
Qwen 的突出特点之一是其超强的内存容量。Qwen 的开源人工智能推理模型原生支持 262,144 个词块的上下文长度,为需要理解大量信息的任务提供了显著优势。
对于开发者和爱好者来说,Qwen 团队简化了入门流程。该模型可在 Hugging Face 上访问,并可使用 sglang 或 vllm 等工具进行部署,以建立个人 API 端点。该团队还强调,他们的 Qwen-Agent 框架是利用该模型的工具调用功能的最佳方法。
为使这一开源人工智能推理模型达到最佳性能,Qwen 团队提出了几项建议。他们建议标准任务的输出长度为 32,768 个标记左右,但对于高度复杂的问题,可将输出长度增加到 81,920 个标记,让人工智能有足够的空间 "思考"。他们还建议在提示中使用明确的说明,例如要求对数学问题采用 "逐步推理 "的方法,以获得最精确、最有条理的回答。
新 Qwen 模型的推出提供了一个强大的开源推理人工智能,能够与领先的专有模型竞争,尤其是在应对复杂、智力要求高的挑战方面。我们将拭目以待开发者社区利用这项技术创造出怎样的成果。
另请参见人工智能行动计划:美国的领导地位必须 "不受挑战
想从行业专家那里加深对人工智能和大数据的了解?参加在阿姆斯特丹、加利福尼亚和伦敦举办的人工智能与大数据博览会。这一综合性活动将与智能自动化大会(Intelligent Automation Conference)、BlockX、数字转型周(Digital Transformation Week)和网络安全与云博览会(Cyber Security & Cloud Expo)等其他重要会议同时举行。
点击此处了解由 TechForge 提供支持的更多即将举行的企业技术活动和网络研讨会。
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
巴里·迪勒:随着通用人工智能的临近,对萨姆·阿尔特曼的信任已无关紧要
尽管近期有报道暗示相反的情况,但亿万富翁、媒体大亨巴里·迪勒并不认为OpenAI首席执行官山姆·阿尔特曼不可信。本周,迪勒在《华尔街日报》举办的“万物未来”峰会上发表演讲时,为阿尔特曼进行了辩护。此前,阿尔特曼曾遭到一些前同事和董事会成员的指责,称其有时会采取操纵和欺骗手段。作为阿尔特曼的朋友,迪勒是在回答一个关于人们是否应该信任阿尔特曼以确保人工智能造福人类的问题时作出上述表态的。具体而言,提问





首页






