Luma AI 发布了 Uni-1 自回归模型,该模型可同时生成文本和像素
Luma Labs 于 3 月 23 日发布了其图像生成模型 Uni-1,这是该公司首个基于统一智能架构(Unified Intelligence)构建的公开可用模型。目前,官方网站已开放免费试用,API 定价已公布,企业级访问渠道也将逐步推出。

架构转型:从扩散模型转向自回归模型
Uni-1摒弃了主流的扩散模型方案,转而采用仅含解码器的自回归Transformer架构。该模型将文本和图像令牌以交替序列的形式排列在单一序列中,仅需一次前向传播即可完成推理和像素生成。
Luma首席执行官Amit Jain解释称,传统方案通常先使用语言模型进行规划,再交由扩散模型进行生成,导致两个阶段之间存在信息丢失。Uni-1的设计旨在消除这一缺口。
Jain 此前曾在苹果公司任职,并参与了 Vision Pro 的工程开发。
功能:参考图像控制与跨风格生成
Uni-1支持基于一张或多张参考图像进行图像生成,能够保留主体的身份、姿态和构图。官方测试显示,在多参考图像模式下,该模型在处理角色一致性和肖像控制方面表现稳定。
该模型宣称支持76种视觉风格,涵盖写实摄影、漫画及浮世绘等类别。
在演示中,输入“绘制金门大桥的信息图”,模型会自动规划布局,生成桥梁结构图,并标注“1711米”等数据,其内部推理过程可实时可见。
基准测试:在空间推理和参考生成方面处于领先地位

Luma发布的数据显示,Uni-1在RISEBench推理基准测试中获得0.51分,高于Google Nano Banana 2的0.50分和OpenAI GPT Image 1.5的0.46分。 其空间推理得分达到0.58,逻辑推理得分0.32,约为GPT Image的两倍。
在 ODinW-13 物体检测基准测试中,Uni-1 取得了 46.2 mAP 的成绩,接近 Google Gemini 3 Pro 的 46.3。
在人类偏好Elo排名中,Uni-1在总体偏好、风格与编辑以及参考生成方面位列第一,在文本到图像生成方面位列第二。
定价
API 收费基于令牌:输入文本每百万令牌 0.50 美元,输入图像每百万令牌 1.20 美元,输出文本和思维链每百万令牌 3.00 美元,输出图像每百万令牌 45.45 美元。
按每张图片计算:文本转图像(2048px)约需 0.0909 美元,使用单张参考图像进行编辑约需 0.0933 美元,使用八张参考图像约需 0.1101 美元。
VentureBeat报道称,在2K分辨率的企业场景中,Uni-1的成本比Google Nano Banana 2低10%至30%。
背景
Luma Labs此前专注于视频生成产品,如Dream Machine(Ray3系列)。3月5日,该公司发布了同样基于统一智能架构的创意代理平台Luma Agents。Uni-1是该架构在静态图像产品中的首次应用。
发布数小时内,X平台上的相关帖子浏览量已突破230万次。Luma表示视频和音频版本将陆续推出,但具体时间表尚未披露。
体验地址:lumalabs.ai/uni-1
相关文章
AI浏览器Comet正式上线,全面支持iPad多任务处理
Perplexity 旗下的人工智能浏览器 Comet 已正式推出 iPad 版本,现已全面兼容 iPadOS。此次更新引入了多窗口浏览、多任务处理支持,并与 OpenAI 和 Anthropic 等领先的人工智能模型深度集成,为用户带来更智能的网络体验。Comet 浏览器拓宽了用户探索网络和与 AI 聊天机器人互动的方式,提供便捷访问 OpenAI 和 Anthropic 等顶级 AI 模型的通
Trace筹集了300万美元,用于解决企业采用AI智能助手时所遇到的各种障碍。
尽管人工智能代理具有巨大潜力,但它们在企业中仍难以取得实质性进展。一家新兴的初创企业认为,根本问题在于缺乏上下文信息。Trace是一家专注于工作流程协作的初创企业,它作为Y Combinator 2025年夏季培训项目的一部分诞生,旨在弥补这一空白。该公司能够梳理复杂的企业环境和业务流程,为人工智能代理提供所需的上下文信息,从而帮助它们快速发展。“OpenAI和Anthropic培养出了非常优秀的人工智能实习生,企业完全可以利用这些资源,”Trace的首席执行官Tim Cherkasov解释
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)
相关专题推荐
评论 (0)
0/500
Luma Labs 于 3 月 23 日发布了其图像生成模型 Uni-1,这是该公司首个基于统一智能架构(Unified Intelligence)构建的公开可用模型。目前,官方网站已开放免费试用,API 定价已公布,企业级访问渠道也将逐步推出。

架构转型:从扩散模型转向自回归模型
Uni-1摒弃了主流的扩散模型方案,转而采用仅含解码器的自回归Transformer架构。该模型将文本和图像令牌以交替序列的形式排列在单一序列中,仅需一次前向传播即可完成推理和像素生成。
Luma首席执行官Amit Jain解释称,传统方案通常先使用语言模型进行规划,再交由扩散模型进行生成,导致两个阶段之间存在信息丢失。Uni-1的设计旨在消除这一缺口。
Jain 此前曾在苹果公司任职,并参与了 Vision Pro 的工程开发。
功能:参考图像控制与跨风格生成
Uni-1支持基于一张或多张参考图像进行图像生成,能够保留主体的身份、姿态和构图。官方测试显示,在多参考图像模式下,该模型在处理角色一致性和肖像控制方面表现稳定。
该模型宣称支持76种视觉风格,涵盖写实摄影、漫画及浮世绘等类别。
在演示中,输入“绘制金门大桥的信息图”,模型会自动规划布局,生成桥梁结构图,并标注“1711米”等数据,其内部推理过程可实时可见。
基准测试:在空间推理和参考生成方面处于领先地位

Luma发布的数据显示,Uni-1在RISEBench推理基准测试中获得0.51分,高于Google Nano Banana 2的0.50分和OpenAI GPT Image 1.5的0.46分。 其空间推理得分达到0.58,逻辑推理得分0.32,约为GPT Image的两倍。
在 ODinW-13 物体检测基准测试中,Uni-1 取得了 46.2 mAP 的成绩,接近 Google Gemini 3 Pro 的 46.3。
在人类偏好Elo排名中,Uni-1在总体偏好、风格与编辑以及参考生成方面位列第一,在文本到图像生成方面位列第二。
定价
API 收费基于令牌:输入文本每百万令牌 0.50 美元,输入图像每百万令牌 1.20 美元,输出文本和思维链每百万令牌 3.00 美元,输出图像每百万令牌 45.45 美元。
按每张图片计算:文本转图像(2048px)约需 0.0909 美元,使用单张参考图像进行编辑约需 0.0933 美元,使用八张参考图像约需 0.1101 美元。
VentureBeat报道称,在2K分辨率的企业场景中,Uni-1的成本比Google Nano Banana 2低10%至30%。
背景
Luma Labs此前专注于视频生成产品,如Dream Machine(Ray3系列)。3月5日,该公司发布了同样基于统一智能架构的创意代理平台Luma Agents。Uni-1是该架构在静态图像产品中的首次应用。
发布数小时内,X平台上的相关帖子浏览量已突破230万次。Luma表示视频和音频版本将陆续推出,但具体时间表尚未披露。
体验地址:lumalabs.ai/uni-1
AI浏览器Comet正式上线,全面支持iPad多任务处理
Perplexity 旗下的人工智能浏览器 Comet 已正式推出 iPad 版本,现已全面兼容 iPadOS。此次更新引入了多窗口浏览、多任务处理支持,并与 OpenAI 和 Anthropic 等领先的人工智能模型深度集成,为用户带来更智能的网络体验。Comet 浏览器拓宽了用户探索网络和与 AI 聊天机器人互动的方式,提供便捷访问 OpenAI 和 Anthropic 等顶级 AI 模型的通
Trace筹集了300万美元,用于解决企业采用AI智能助手时所遇到的各种障碍。
尽管人工智能代理具有巨大潜力,但它们在企业中仍难以取得实质性进展。一家新兴的初创企业认为,根本问题在于缺乏上下文信息。Trace是一家专注于工作流程协作的初创企业,它作为Y Combinator 2025年夏季培训项目的一部分诞生,旨在弥补这一空白。该公司能够梳理复杂的企业环境和业务流程,为人工智能代理提供所需的上下文信息,从而帮助它们快速发展。“OpenAI和Anthropic培养出了非常优秀的人工智能实习生,企业完全可以利用这些资源,”Trace的首席执行官Tim Cherkasov解释
Google I/O 2026 发布 Gmail 收件箱语音交互功能
谷歌正持续将人工智能融入用户的收件箱。在周二举行的IO 2026开发者大会上,该公司通过对话式人工智能扩展了Gmail的“AI收件箱”功能,让用户能够针对收件箱内容提出问题,而不再仅依赖搜索关键词。据谷歌介绍,这款由Gemini AI驱动的工具名为Gmail Live,可帮助用户快速定位收件箱中被埋没的信息。图片来源:谷歌例如,您可能需要查询即将出发的航班详情、牙医预约时间、爱彼迎(Airbnb)





首页






