Heim
Luma AI stellt das autoregressive Modell „Uni-1“ vor, das gleichzeitig Text und Pixel generiert
Luma Labs hat am 23. März sein Bildgenerierungsmodell Uni-1 vorgestellt – das erste öffentlich zugängliche Modell des Unternehmens, das auf der Unified-Intelligence-Architektur basiert. Auf der offiziellen Website ist nun ein kostenloser Testzugang verfügbar; die API-Preise wurden bekannt gegeben, und die Zugangskanäle für Unternehmen werden schrittweise eingeführt.

Architekturwechsel: Von Diffusionsmodellen zu autoregressiven Modellen
Uni-1 entfernt sich vom vorherrschenden Diffusionsmodell-Ansatz und setzt stattdessen auf einen rein dekodierenden autoregressiven Transformer. Es ordnet Text- und Bild-Tokens in einer abwechselnden Sequenz innerhalb einer einzigen Sequenz an und schließt Inferenz und Pixelgenerierung in einem einzigen Durchlauf ab.
Luma-CEO Amit Jain erklärte, dass herkömmliche Lösungen in der Regel zunächst ein Sprachmodell für die Planung verwenden und dann zur Generierung an ein Diffusionsmodell übergeben, was zu Informationsverlusten zwischen den beiden Stufen führt. Das Design von Uni-1 zielt darauf ab, diese Lücke zu schließen.
Jain war zuvor bei Apple tätig und wirkte an der Entwicklung von Vision Pro mit.
Funktionen: Steuerung durch Referenzbilder und stilübergreifende Generierung
Uni-1 unterstützt die Bildgenerierung anhand eines oder mehrerer Referenzbilder, wobei die Identität, Körperhaltung und Komposition des Motivs erhalten bleiben. Offizielle Tests zeigen eine stabile Leistung bei der Gewährleistung von Charakterkonsistenz und Porträtkontrolle im Modus mit mehreren Referenzbildern.
Das Modell unterstützt nach eigenen Angaben 76 visuelle Stile, darunter Kategorien wie realistische Fotografie, Comics und Ukiyo-e.
In einer Demonstration führte die Eingabe „Zeichne eine Infografik der Golden Gate Bridge“ dazu, dass das Modell automatisch das Layout plante, ein Diagramm der Brückenstruktur generierte und Daten wie „1711 Meter“ einfügte, wobei der interne Denkprozess in Echtzeit sichtbar war.
Benchmarks: Führend bei räumlichem Denken und Referenzgenerierung

Von Luma veröffentlichte Daten zeigen, dass Uni-1 beim RISEBench-Denkvermögen-Benchmark 0,51 Punkte erzielte und damit höher abschnitt als Google Nano Banana 2 mit 0,50 und OpenAI GPT Image 1.5 mit 0,46. Die Punktzahl für räumliches Denken erreichte 0,58 und die für logisches Denken 0,32, was etwa dem Doppelten des Wertes von GPT Image entspricht.
Beim ODinW-13-Objekterkennungs-Benchmark erreichte Uni-1 46,2 mAP und lag damit nahe an den 46,3 von Google Gemini 3 Pro.
In den Elo-Rankings zur menschlichen Präferenz belegte Uni-1 den ersten Platz in den Kategorien Gesamtpräferenz, Stil und Bearbeitung sowie Referenzgenerierung und den zweiten Platz bei der Text-zu-Bild-Generierung.
Preise
Die API-Gebühren sind tokenbasiert: 0,50 $ pro Million Token für Eingabetext, 1,20 $ pro Million Token für Eingabebilder, 3,00 $ pro Million Token für Ausgabetext und Gedankenkette sowie 45,45 $ pro Million Token für Ausgabebilder.
Umgerechnet auf eine Basis pro Bild: Text-zu-Bild (2048px) kostet etwa 0,0909 $, die Bearbeitung mit einem einzigen Referenzbild etwa 0,0933 $ und mit acht Referenzbildern etwa 0,1101 $.
VentureBeat berichtete, dass Uni-1 in Unternehmensszenarien mit 2K-Auflösung 10 % bis 30 % weniger kostet als Google Nano Banana 2.
Hintergrund
Luma Labs konzentrierte sich zuvor auf Produkte zur Videogenerierung wie Dream Machine (Ray3-Serie). Am 5. März veröffentlichte das Unternehmen die Kreativ-Agenten-Plattform Luma Agents, die ebenfalls auf der Unified-Intelligence-Architektur basiert. Uni-1 ist die erste Anwendung dieser Architektur in einem Produkt für statische Bilder.
Innerhalb weniger Stunden nach der Veröffentlichung erzielten entsprechende Beiträge auf der X-Plattform über 2,3 Millionen Aufrufe. Luma gab bekannt, dass Video- und Audioversionen folgen werden, konkrete Zeitpläne wurden jedoch nicht bekannt gegeben.
Probieren Sie es aus unter: lumalabs.ai/uni-1
Verwandter Artikel
Xiaohongshu strukturiert sich neu: Conan wird zum Präsidenten ernannt, die Hauptabteilung für KI „Dots“ und die Auslandsabteilung „Rednote“ werden gegründet
Am 30. April versandte Xiaohongshu ein internes Memo an alle Mitarbeiter, in dem die Einführung einer neuen organisatorischen Umstrukturierung angekündigt wurde. Im Mittelpunkt dieser Veränderung steh
Tencent-Spiel „Xiaolongxia“ übertrifft alle Erwartungen, das Team verzehnfacht seine Kapazitäten, entschuldigt sich und leistet Entschädigung
Tencent hat offiziell „WorkBuddy“ eingeführt, einen KI-Agenten für alle Anwendungsszenarien, der mit seiner hohen Integrationsfähigkeit und niedrigen Einführungshürde eine neue Phase im Wettlauf um di
Hauptinvestor von Suno: Das Löschen von Beiträgen wird die Lücke bei Urheberrechtsklagen nicht schließen
Die mit Spannung erwartete KI-Plattform zur Musikgenerierung „Suno“ steht vor einem harten Rechtsstreit um Urheberrechte, und eine unverblümte Äußerung ihres Hauptinvestors könnte der Gegenseite genau
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Luma Labs hat am 23. März sein Bildgenerierungsmodell Uni-1 vorgestellt – das erste öffentlich zugängliche Modell des Unternehmens, das auf der Unified-Intelligence-Architektur basiert. Auf der offiziellen Website ist nun ein kostenloser Testzugang verfügbar; die API-Preise wurden bekannt gegeben, und die Zugangskanäle für Unternehmen werden schrittweise eingeführt.

Architekturwechsel: Von Diffusionsmodellen zu autoregressiven Modellen
Uni-1 entfernt sich vom vorherrschenden Diffusionsmodell-Ansatz und setzt stattdessen auf einen rein dekodierenden autoregressiven Transformer. Es ordnet Text- und Bild-Tokens in einer abwechselnden Sequenz innerhalb einer einzigen Sequenz an und schließt Inferenz und Pixelgenerierung in einem einzigen Durchlauf ab.
Luma-CEO Amit Jain erklärte, dass herkömmliche Lösungen in der Regel zunächst ein Sprachmodell für die Planung verwenden und dann zur Generierung an ein Diffusionsmodell übergeben, was zu Informationsverlusten zwischen den beiden Stufen führt. Das Design von Uni-1 zielt darauf ab, diese Lücke zu schließen.
Jain war zuvor bei Apple tätig und wirkte an der Entwicklung von Vision Pro mit.
Funktionen: Steuerung durch Referenzbilder und stilübergreifende Generierung
Uni-1 unterstützt die Bildgenerierung anhand eines oder mehrerer Referenzbilder, wobei die Identität, Körperhaltung und Komposition des Motivs erhalten bleiben. Offizielle Tests zeigen eine stabile Leistung bei der Gewährleistung von Charakterkonsistenz und Porträtkontrolle im Modus mit mehreren Referenzbildern.
Das Modell unterstützt nach eigenen Angaben 76 visuelle Stile, darunter Kategorien wie realistische Fotografie, Comics und Ukiyo-e.
In einer Demonstration führte die Eingabe „Zeichne eine Infografik der Golden Gate Bridge“ dazu, dass das Modell automatisch das Layout plante, ein Diagramm der Brückenstruktur generierte und Daten wie „1711 Meter“ einfügte, wobei der interne Denkprozess in Echtzeit sichtbar war.
Benchmarks: Führend bei räumlichem Denken und Referenzgenerierung

Von Luma veröffentlichte Daten zeigen, dass Uni-1 beim RISEBench-Denkvermögen-Benchmark 0,51 Punkte erzielte und damit höher abschnitt als Google Nano Banana 2 mit 0,50 und OpenAI GPT Image 1.5 mit 0,46. Die Punktzahl für räumliches Denken erreichte 0,58 und die für logisches Denken 0,32, was etwa dem Doppelten des Wertes von GPT Image entspricht.
Beim ODinW-13-Objekterkennungs-Benchmark erreichte Uni-1 46,2 mAP und lag damit nahe an den 46,3 von Google Gemini 3 Pro.
In den Elo-Rankings zur menschlichen Präferenz belegte Uni-1 den ersten Platz in den Kategorien Gesamtpräferenz, Stil und Bearbeitung sowie Referenzgenerierung und den zweiten Platz bei der Text-zu-Bild-Generierung.
Preise
Die API-Gebühren sind tokenbasiert: 0,50 $ pro Million Token für Eingabetext, 1,20 $ pro Million Token für Eingabebilder, 3,00 $ pro Million Token für Ausgabetext und Gedankenkette sowie 45,45 $ pro Million Token für Ausgabebilder.
Umgerechnet auf eine Basis pro Bild: Text-zu-Bild (2048px) kostet etwa 0,0909 $, die Bearbeitung mit einem einzigen Referenzbild etwa 0,0933 $ und mit acht Referenzbildern etwa 0,1101 $.
VentureBeat berichtete, dass Uni-1 in Unternehmensszenarien mit 2K-Auflösung 10 % bis 30 % weniger kostet als Google Nano Banana 2.
Hintergrund
Luma Labs konzentrierte sich zuvor auf Produkte zur Videogenerierung wie Dream Machine (Ray3-Serie). Am 5. März veröffentlichte das Unternehmen die Kreativ-Agenten-Plattform Luma Agents, die ebenfalls auf der Unified-Intelligence-Architektur basiert. Uni-1 ist die erste Anwendung dieser Architektur in einem Produkt für statische Bilder.
Innerhalb weniger Stunden nach der Veröffentlichung erzielten entsprechende Beiträge auf der X-Plattform über 2,3 Millionen Aufrufe. Luma gab bekannt, dass Video- und Audioversionen folgen werden, konkrete Zeitpläne wurden jedoch nicht bekannt gegeben.
Probieren Sie es aus unter: lumalabs.ai/uni-1
Xiaohongshu strukturiert sich neu: Conan wird zum Präsidenten ernannt, die Hauptabteilung für KI „Dots“ und die Auslandsabteilung „Rednote“ werden gegründet
Am 30. April versandte Xiaohongshu ein internes Memo an alle Mitarbeiter, in dem die Einführung einer neuen organisatorischen Umstrukturierung angekündigt wurde. Im Mittelpunkt dieser Veränderung steh
Tencent-Spiel „Xiaolongxia“ übertrifft alle Erwartungen, das Team verzehnfacht seine Kapazitäten, entschuldigt sich und leistet Entschädigung
Tencent hat offiziell „WorkBuddy“ eingeführt, einen KI-Agenten für alle Anwendungsszenarien, der mit seiner hohen Integrationsfähigkeit und niedrigen Einführungshürde eine neue Phase im Wettlauf um di
Hauptinvestor von Suno: Das Löschen von Beiträgen wird die Lücke bei Urheberrechtsklagen nicht schließen
Die mit Spannung erwartete KI-Plattform zur Musikgenerierung „Suno“ steht vor einem harten Rechtsstreit um Urheberrechte, und eine unverblümte Äußerung ihres Hauptinvestors könnte der Gegenseite genau











