Maison
Luma AI dévoile Uni-1, un modèle autorégressif capable de générer simultanément du texte et des pixels
Luma Labs a lancé le 23 mars son modèle de génération d'images Uni-1, qui constitue le premier modèle de l'entreprise accessible au public et basé sur l'architecture Unified Intelligence. Un accès d'essai gratuit est désormais disponible sur le site officiel ; les tarifs de l'API ont été annoncés et les canaux d'accès pour les entreprises sont progressivement mis en place.

Changement d'architecture : des modèles de diffusion aux modèles autorégressifs
Uni-1 s'éloigne de l'approche dominante des modèles de diffusion, optant plutôt pour un Transformer autorégressif à décodeur seul. Il organise les tokens de texte et d'image en une séquence alternée au sein d'une même séquence, effectuant l'inférence et la génération de pixels en un seul passage avant.
Amit Jain, PDG de Luma, a expliqué que les solutions traditionnelles utilisent généralement d'abord un modèle linguistique pour la planification, puis passent à un modèle de diffusion pour la génération, ce qui entraîne une perte d'informations entre les deux étapes. La conception d'Uni-1 vise à éliminer cet écart.
M. Jain a précédemment travaillé chez Apple et a contribué à l'ingénierie de Vision Pro.
Capacités : contrôle des images de référence et génération multi-styles
Uni-1 prend en charge la génération d'images guidée par une ou plusieurs images de référence, en préservant l'identité, la posture et la composition du sujet. Des tests officiels montrent des performances stables en matière de cohérence des personnages et de contrôle des portraits en mode multi-images de référence.
Le modèle prétend prendre en charge 76 styles visuels, couvrant des catégories telles que la photographie réaliste, la bande dessinée et l'ukiyo-e.
Lors d'une démonstration, la saisie de « Dessine une infographie du Golden Gate Bridge » a conduit le modèle à planifier automatiquement la mise en page, à générer un schéma de la structure du pont et à annoter des données telles que « 1 711 mètres », le processus de raisonnement interne étant visible en temps réel.
Tests de performance : leader en raisonnement spatial et en génération de références

Les données publiées par Luma montrent qu'Uni-1 a obtenu un score de 0,51 au benchmark de raisonnement RISEBench, supérieur à celui de Google Nano Banana 2 (0,50) et d'OpenAI GPT Image 1.5 (0,46). Son score en raisonnement spatial a atteint 0,58 et celui en raisonnement logique 0,32, soit environ le double de celui de GPT Image.
Sur le benchmark de détection d'objets ODinW-13, Uni-1 a atteint 46,2 mAP, un score proche des 46,3 de Google Gemini 3 Pro.
Dans le classement Elo des préférences humaines, Uni-1 s'est classé premier en termes de préférence globale, de style et d'édition, ainsi que de génération de références, et deuxième en génération texte-image.
Tarification
Les frais d'API sont basés sur des jetons : 0,50 $ par million de jetons pour le texte d'entrée, 1,20 $ par million de jetons pour les images d'entrée, 3,00 $ par million de jetons pour le texte de sortie et la chaîne de pensée, et 45,45 $ par million de jetons pour les images de sortie.
Converti par image : la génération texte-image (2048 px) coûte environ 0,0909 $, l'édition avec une seule image de référence environ 0,0933 $, et avec huit images de référence environ 0,1101 $.
VentureBeat a rapporté que dans des scénarios d'entreprise avec une résolution de 2K, Uni-1 coûte 10 % à 30 % moins cher que Google Nano Banana 2.
Contexte
Luma Labs se concentrait auparavant sur des produits de génération vidéo tels que Dream Machine (série Ray3). Le 5 mars, la société a lancé la plateforme d'agents créatifs Luma Agents, également basée sur l'architecture Unified Intelligence. Uni-1 est la première application de cette architecture dans un produit d'images statiques.
Quelques heures après le lancement, les publications associées sur la plateforme X ont recueilli plus de 2,3 millions de vues. Luma a indiqué que des versions vidéo et audio suivraient, bien qu'aucun calendrier précis n'ait été communiqué.
Essayez-le sur : lumalabs.ai/uni-1
Article connexe
OpenAI relance son activité dans le domaine de la robotique, tandis qu'Automan recherche des ingénieurs pour la R&D en matière d'infrastructures
Le 1er juin, Sam Altman, PDG d'OpenAI, a annoncé sur les réseaux sociaux que l'entreprise faisait son retour dans le domaine de la robotique, en publiant des offres d'emploi pour l'équipe OpenAI Robot
Bain prévoit un marché du SaaS de 100 milliards de dollars dans le domaine de l'automatisation par l'IA agentique
Bain & Company a estimé à 100 milliards de dollars la taille du marché américain pour les entreprises SaaS exploitant l'IA agentique. Selon le cabinet, ce marché résulte de l'automatisation des tâches
La politique rendant obligatoire l'utilisation de la recherche par IA provoque un exode, tandis que DuckDuckGo enregistre une forte augmentation du nombre d'utilisateurs
Suite à l'annonce faite par Google lors de sa conférence I/O 2026 concernant une refonte complète de son moteur de recherche axée sur l'IA, de nombreux utilisateurs se sont mis à rechercher des altern
Recommandations de sujets spéciaux liés
commentaires (0)
Luma Labs a lancé le 23 mars son modèle de génération d'images Uni-1, qui constitue le premier modèle de l'entreprise accessible au public et basé sur l'architecture Unified Intelligence. Un accès d'essai gratuit est désormais disponible sur le site officiel ; les tarifs de l'API ont été annoncés et les canaux d'accès pour les entreprises sont progressivement mis en place.

Changement d'architecture : des modèles de diffusion aux modèles autorégressifs
Uni-1 s'éloigne de l'approche dominante des modèles de diffusion, optant plutôt pour un Transformer autorégressif à décodeur seul. Il organise les tokens de texte et d'image en une séquence alternée au sein d'une même séquence, effectuant l'inférence et la génération de pixels en un seul passage avant.
Amit Jain, PDG de Luma, a expliqué que les solutions traditionnelles utilisent généralement d'abord un modèle linguistique pour la planification, puis passent à un modèle de diffusion pour la génération, ce qui entraîne une perte d'informations entre les deux étapes. La conception d'Uni-1 vise à éliminer cet écart.
M. Jain a précédemment travaillé chez Apple et a contribué à l'ingénierie de Vision Pro.
Capacités : contrôle des images de référence et génération multi-styles
Uni-1 prend en charge la génération d'images guidée par une ou plusieurs images de référence, en préservant l'identité, la posture et la composition du sujet. Des tests officiels montrent des performances stables en matière de cohérence des personnages et de contrôle des portraits en mode multi-images de référence.
Le modèle prétend prendre en charge 76 styles visuels, couvrant des catégories telles que la photographie réaliste, la bande dessinée et l'ukiyo-e.
Lors d'une démonstration, la saisie de « Dessine une infographie du Golden Gate Bridge » a conduit le modèle à planifier automatiquement la mise en page, à générer un schéma de la structure du pont et à annoter des données telles que « 1 711 mètres », le processus de raisonnement interne étant visible en temps réel.
Tests de performance : leader en raisonnement spatial et en génération de références

Les données publiées par Luma montrent qu'Uni-1 a obtenu un score de 0,51 au benchmark de raisonnement RISEBench, supérieur à celui de Google Nano Banana 2 (0,50) et d'OpenAI GPT Image 1.5 (0,46). Son score en raisonnement spatial a atteint 0,58 et celui en raisonnement logique 0,32, soit environ le double de celui de GPT Image.
Sur le benchmark de détection d'objets ODinW-13, Uni-1 a atteint 46,2 mAP, un score proche des 46,3 de Google Gemini 3 Pro.
Dans le classement Elo des préférences humaines, Uni-1 s'est classé premier en termes de préférence globale, de style et d'édition, ainsi que de génération de références, et deuxième en génération texte-image.
Tarification
Les frais d'API sont basés sur des jetons : 0,50 $ par million de jetons pour le texte d'entrée, 1,20 $ par million de jetons pour les images d'entrée, 3,00 $ par million de jetons pour le texte de sortie et la chaîne de pensée, et 45,45 $ par million de jetons pour les images de sortie.
Converti par image : la génération texte-image (2048 px) coûte environ 0,0909 $, l'édition avec une seule image de référence environ 0,0933 $, et avec huit images de référence environ 0,1101 $.
VentureBeat a rapporté que dans des scénarios d'entreprise avec une résolution de 2K, Uni-1 coûte 10 % à 30 % moins cher que Google Nano Banana 2.
Contexte
Luma Labs se concentrait auparavant sur des produits de génération vidéo tels que Dream Machine (série Ray3). Le 5 mars, la société a lancé la plateforme d'agents créatifs Luma Agents, également basée sur l'architecture Unified Intelligence. Uni-1 est la première application de cette architecture dans un produit d'images statiques.
Quelques heures après le lancement, les publications associées sur la plateforme X ont recueilli plus de 2,3 millions de vues. Luma a indiqué que des versions vidéo et audio suivraient, bien qu'aucun calendrier précis n'ait été communiqué.
Essayez-le sur : lumalabs.ai/uni-1
OpenAI relance son activité dans le domaine de la robotique, tandis qu'Automan recherche des ingénieurs pour la R&D en matière d'infrastructures
Le 1er juin, Sam Altman, PDG d'OpenAI, a annoncé sur les réseaux sociaux que l'entreprise faisait son retour dans le domaine de la robotique, en publiant des offres d'emploi pour l'équipe OpenAI Robot
La politique rendant obligatoire l'utilisation de la recherche par IA provoque un exode, tandis que DuckDuckGo enregistre une forte augmentation du nombre d'utilisateurs
Suite à l'annonce faite par Google lors de sa conférence I/O 2026 concernant une refonte complète de son moteur de recherche axée sur l'IA, de nombreux utilisateurs se sont mis à rechercher des altern











