微软开源了Phi-4-Vision,一款轻量级多模态AI模型
微软已正式将其最新的多模态推理模型 Phi-4-reasoning-vision-15B 开源。该模型拥有 150 亿个参数,在高性能与低成本之间实现了理想的平衡。其轻量级架构使其成为在资源受限环境中处理复杂视觉任务的极具吸引力的新选择。
由精炼数据驱动的“紧凑型强力引擎”
与通常基于数万亿令牌训练的行业模型不同,Phi-4-reasoning-vision仅使用2000亿个多模态令牌进行开发。团队通过对开源数据进行严格清洗、生成针对性的合成数据,并精心校准领域特定数据的比例(例如增加数学内容以增强计算推理能力),从而优先保证了数据质量。这种方法使其在科学推理和屏幕元素定位任务中表现出色。

创新的混合推理策略
该模型的关键创新在于其“混合推理路径”设计:
感知任务:对于图像描述或OCR等简单任务,模型默认采用直接答题模式,以速度和低延迟为优化目标。
推理任务:当面对复杂逻辑(如解读数学公式或科学图表)时,模型会自动启动结构化的思维链(CoT)过程,以确保答案的准确性。
用户还可通过特定触发短语手动在两种模式间切换,从而根据不同应用需求调整模型的行为。
通过集成 SigLIP-2 动态分辨率编码器,该模型在识别高分辨率截图中的细微细节方面表现卓越。这一能力使其成为开发计算机使用代理(CUA)的理想基础,这类代理能够准确识别并交互数字界面上的按钮、输入框及其他元素。
Phi-4-reasoning-vision-15B 现已登陆各大开源平台。微软展望,这一紧凑型模型将证明在多模态领域,“更小、更快”同样意味着“更强大”,从而推动空间智能和实时交互技术的普及。
相关文章
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解
相关专题推荐
评论 (1)
0/500
微软已正式将其最新的多模态推理模型 Phi-4-reasoning-vision-15B 开源。该模型拥有 150 亿个参数,在高性能与低成本之间实现了理想的平衡。其轻量级架构使其成为在资源受限环境中处理复杂视觉任务的极具吸引力的新选择。
由精炼数据驱动的“紧凑型强力引擎”
与通常基于数万亿令牌训练的行业模型不同,Phi-4-reasoning-vision仅使用2000亿个多模态令牌进行开发。团队通过对开源数据进行严格清洗、生成针对性的合成数据,并精心校准领域特定数据的比例(例如增加数学内容以增强计算推理能力),从而优先保证了数据质量。这种方法使其在科学推理和屏幕元素定位任务中表现出色。

创新的混合推理策略
该模型的关键创新在于其“混合推理路径”设计:
感知任务:对于图像描述或OCR等简单任务,模型默认采用直接答题模式,以速度和低延迟为优化目标。
推理任务:当面对复杂逻辑(如解读数学公式或科学图表)时,模型会自动启动结构化的思维链(CoT)过程,以确保答案的准确性。
用户还可通过特定触发短语手动在两种模式间切换,从而根据不同应用需求调整模型的行为。
通过集成 SigLIP-2 动态分辨率编码器,该模型在识别高分辨率截图中的细微细节方面表现卓越。这一能力使其成为开发计算机使用代理(CUA)的理想基础,这类代理能够准确识别并交互数字界面上的按钮、输入框及其他元素。
Phi-4-reasoning-vision-15B 现已登陆各大开源平台。微软展望,这一紧凑型模型将证明在多模态领域,“更小、更快”同样意味着“更强大”,从而推动空间智能和实时交互技术的普及。
DeepSeek Code 即将发布
随着人工智能技术的加速发展,DeepSeek正处于一个激动人心的关键时刻。这家人工智能公司近日透露,已获得超过700亿元的融资。公司管理层强调,将致力于开创性的人工智能研究,而非追求眼前的商业利益。这一战略转型表明,DeepSeek将全力投入新产品的开发,尤其是备受期待的DeepSeek Code。DeepSeek Code的规划已初具雏形,公司招聘页面上已发布多个相关职位,例如“Agent Ha
马斯克的Grok:1.5万亿参数与光标代码吸收——颠覆性突破还是虚张声势?
埃隆·马斯克终于开始行动了。在人工智能编程竞赛中,OpenAI和Anthropic正加速前进,而xAI似乎有些落后。马斯克曾多次表示要与Claude一较高下,尽管Grok4.X系列已多次更新,但其成果在理论上看似不错,实际应用中却未能达到预期,双方的差距几乎未见缩小。不过,这次他手中握有一张新牌。马斯克在X平台确认,Grok的新版本即将问世。 这款基础模型第九版的内部代号已确定,参数规模高达1.5
OpenAI 悄悄修改章程,以增加解雇阿尔特曼的难度
在2023年那场类似政变的事件之后,OpenAI通过更新公司章程,进一步巩固了对首席执行官萨姆·阿尔特曼的保护措施。最近公布的法庭文件显示,阿尔特曼的职位如今已牢不可破,针对外部干预或董事会内部试图罢免他的行为,设置了大幅提高的门槛。在埃隆·马斯克起诉OpenAI一案中,一位专家证人指出,这些变更是在公司向营利模式转型之际悄然进行的。与之前的简单多数表决规则不同,新政策为奥特曼提供了强有力的免遭解





首页






