Luma AI 推出 Uni-1 自回歸模型,可同時生成文字與像素
Luma Labs 於 3 月 23 日推出其圖像生成模型 Uni-1,這是該公司首個基於「統一智能」架構且對外開放的模型。目前官方網站已開放免費試用,並已公布 API 定價,企業級使用管道也將逐步推出。

架構轉型:從擴散模型轉向自迴歸模型
Uni-1 摒棄了當前主流的擴散模型方法,轉而採用僅含解碼器的自迴歸 Transformer。該模型將文字與圖像標記以交替序列的形式排列於單一序列中,並在單次前向傳遞中完成推論與像素生成。
Luma 執行長 Amit Jain 解釋,傳統解決方案通常先使用語言模型進行規劃,再交由擴散模型進行生成,導致兩個階段之間產生資訊損失。Uni-1 的設計旨在消除此差距。
Jain 曾任職於 Apple,並參與 Vision Pro 的工程開發。
功能:參考圖像控制與跨風格生成
Uni-1 支援依據一張或多張參考圖像進行生成,並能保留主體的身份、姿勢及構圖。官方測試顯示,在多參考圖像模式下,該模型在角色一致性與肖像控制方面表現穩定。
該模型宣稱支援 76 種視覺風格,涵蓋寫實攝影、漫畫及浮世繪等類別。
在示範中,輸入「繪製金門大橋的資訊圖表」後,模型會自動規劃版面、生成橋樑結構圖,並標註「1711 公尺」等數據,其內部推理過程亦可即時檢視。
基準測試:在空間推理與參考生成方面領先

Luma 發布的數據顯示,Uni-1 在 RISEBench 推理基準測試中獲得 0.51 分,高於 Google Nano Banana 2 的 0.50 分及 OpenAI GPT Image 1.5 的 0.46 分。 其空間推理分數達0.58,邏輯推理分數達0.32,約為GPT Image的兩倍。
在 ODinW-13 物件偵測基準測試中,Uni-1 取得 46.2 mAP,接近 Google Gemini 3 Pro 的 46.3。
在人類偏好 Elo 排名中,Uni-1 在整體偏好、風格與編輯以及參考生成方面名列第一,而在文字轉圖像生成方面名列第二。
定價
API 收費採代幣計費制:輸入文字每百萬代幣 0.50 美元,輸入圖片每百萬代幣 1.20 美元,輸出文字與思維鏈每百萬代幣 3.00 美元,輸出圖片每百萬代幣 45.45 美元。
換算為每張圖片的費用:文字轉圖像(2048px)約為 0.0909 美元,使用單張參考圖片進行編輯約為 0.0933 美元,使用八張參考圖片則約為 0.1101 美元。
VentureBeat 報導指出,在 2K 解析度的企業應用情境下,Uni-1 的成本比 Google Nano Banana 2 低 10% 至 30%。
背景
Luma Labs 此前專注於影片生成產品,例如 Dream Machine(Ray3 系列)。3 月 5 日,該公司發布了同樣基於 Unified Intelligence 架構的創意代理平台 Luma Agents。Uni-1 是該架構在靜態圖像產品中的首次應用。
發布數小時內,X 平台上的相關貼文瀏覽量已突破 230 萬次。Luma 表示將陸續推出影音版本,但尚未透露具體時程。
試用連結:lumalabs.ai/uni-1
相關文章
英國各政府部門就人工智慧資料中心的能源需求產生分歧
英國政府正面臨一項重大挑戰:在推動清潔能源的同時,力求成為人工智慧領域的全球領導者。然而,負責這些目標的各部會之間卻顯現出嚴重的分歧。 科學、創新與技術部(DSIT)與能源安全及淨零部(DESNZ)對於人工智慧資料中心的未來電力需求,持著截然不同的預測。DSIT預測,到2030年,人工智慧資料中心將需要6吉瓦的電力;而DESNZ的估計則不到該數字的十分之一。 這項差距引起了非營利組織「Foxglo
中國網絡空間管理局規定,人工智慧生成及虛構的短影片必須標註
中國網絡信息辦公室已推出一項全面計劃,旨在規範短視頻內容標註,要求各平台提供六項必備標籤——包括「AI生成內容」——這標誌著短視頻治理進入了強制透明化的新時代。為解決內容來源不明及難以區分事實與虛構等問題,監管機構在先前與抖音、快手、騰訊及百度等主要平台進行的試點計畫基礎上,現已將內容標註列為短影片發布流程中的強制步驟。 發布者必須從六個選項中選擇其一:「虛構戲劇化」、「AI生成」、「含行銷資訊」
以文字翻譯聞名的 DeepL,現已進軍語音翻譯領域
以文字翻譯工具聞名的翻譯公司 DeepL,今日推出了一套語音對語音翻譯解決方案,透過客製化應用程式,針對前線工作人員在會議、行動裝置與網路對話,以及群組討論等情境提供支援。 該公司同時推出了一項 API,讓外部開發者與企業能基於 DeepL 的技術,打造適用於呼叫中心等特定情境的解決方案。「在專注於文字翻譯多年後,語音翻譯對我們而言是水到渠成的下一步,」DeepL 執行長 Jarek Kutylo
相關專題推薦
評論 (0)
0/500
Luma Labs 於 3 月 23 日推出其圖像生成模型 Uni-1,這是該公司首個基於「統一智能」架構且對外開放的模型。目前官方網站已開放免費試用,並已公布 API 定價,企業級使用管道也將逐步推出。

架構轉型:從擴散模型轉向自迴歸模型
Uni-1 摒棄了當前主流的擴散模型方法,轉而採用僅含解碼器的自迴歸 Transformer。該模型將文字與圖像標記以交替序列的形式排列於單一序列中,並在單次前向傳遞中完成推論與像素生成。
Luma 執行長 Amit Jain 解釋,傳統解決方案通常先使用語言模型進行規劃,再交由擴散模型進行生成,導致兩個階段之間產生資訊損失。Uni-1 的設計旨在消除此差距。
Jain 曾任職於 Apple,並參與 Vision Pro 的工程開發。
功能:參考圖像控制與跨風格生成
Uni-1 支援依據一張或多張參考圖像進行生成,並能保留主體的身份、姿勢及構圖。官方測試顯示,在多參考圖像模式下,該模型在角色一致性與肖像控制方面表現穩定。
該模型宣稱支援 76 種視覺風格,涵蓋寫實攝影、漫畫及浮世繪等類別。
在示範中,輸入「繪製金門大橋的資訊圖表」後,模型會自動規劃版面、生成橋樑結構圖,並標註「1711 公尺」等數據,其內部推理過程亦可即時檢視。
基準測試:在空間推理與參考生成方面領先

Luma 發布的數據顯示,Uni-1 在 RISEBench 推理基準測試中獲得 0.51 分,高於 Google Nano Banana 2 的 0.50 分及 OpenAI GPT Image 1.5 的 0.46 分。 其空間推理分數達0.58,邏輯推理分數達0.32,約為GPT Image的兩倍。
在 ODinW-13 物件偵測基準測試中,Uni-1 取得 46.2 mAP,接近 Google Gemini 3 Pro 的 46.3。
在人類偏好 Elo 排名中,Uni-1 在整體偏好、風格與編輯以及參考生成方面名列第一,而在文字轉圖像生成方面名列第二。
定價
API 收費採代幣計費制:輸入文字每百萬代幣 0.50 美元,輸入圖片每百萬代幣 1.20 美元,輸出文字與思維鏈每百萬代幣 3.00 美元,輸出圖片每百萬代幣 45.45 美元。
換算為每張圖片的費用:文字轉圖像(2048px)約為 0.0909 美元,使用單張參考圖片進行編輯約為 0.0933 美元,使用八張參考圖片則約為 0.1101 美元。
VentureBeat 報導指出,在 2K 解析度的企業應用情境下,Uni-1 的成本比 Google Nano Banana 2 低 10% 至 30%。
背景
Luma Labs 此前專注於影片生成產品,例如 Dream Machine(Ray3 系列)。3 月 5 日,該公司發布了同樣基於 Unified Intelligence 架構的創意代理平台 Luma Agents。Uni-1 是該架構在靜態圖像產品中的首次應用。
發布數小時內,X 平台上的相關貼文瀏覽量已突破 230 萬次。Luma 表示將陸續推出影音版本,但尚未透露具體時程。
試用連結:lumalabs.ai/uni-1
英國各政府部門就人工智慧資料中心的能源需求產生分歧
英國政府正面臨一項重大挑戰:在推動清潔能源的同時,力求成為人工智慧領域的全球領導者。然而,負責這些目標的各部會之間卻顯現出嚴重的分歧。 科學、創新與技術部(DSIT)與能源安全及淨零部(DESNZ)對於人工智慧資料中心的未來電力需求,持著截然不同的預測。DSIT預測,到2030年,人工智慧資料中心將需要6吉瓦的電力;而DESNZ的估計則不到該數字的十分之一。 這項差距引起了非營利組織「Foxglo
中國網絡空間管理局規定,人工智慧生成及虛構的短影片必須標註
中國網絡信息辦公室已推出一項全面計劃,旨在規範短視頻內容標註,要求各平台提供六項必備標籤——包括「AI生成內容」——這標誌著短視頻治理進入了強制透明化的新時代。為解決內容來源不明及難以區分事實與虛構等問題,監管機構在先前與抖音、快手、騰訊及百度等主要平台進行的試點計畫基礎上,現已將內容標註列為短影片發布流程中的強制步驟。 發布者必須從六個選項中選擇其一:「虛構戲劇化」、「AI生成」、「含行銷資訊」
以文字翻譯聞名的 DeepL,現已進軍語音翻譯領域
以文字翻譯工具聞名的翻譯公司 DeepL,今日推出了一套語音對語音翻譯解決方案,透過客製化應用程式,針對前線工作人員在會議、行動裝置與網路對話,以及群組討論等情境提供支援。 該公司同時推出了一項 API,讓外部開發者與企業能基於 DeepL 的技術,打造適用於呼叫中心等特定情境的解決方案。「在專注於文字翻譯多年後,語音翻譯對我們而言是水到渠成的下一步,」DeepL 執行長 Jarek Kutylo





首頁






