Le modèle Images 2.0 de ChatGPT excelle dans la génération de texte
Il y a encore quelques années, il était relativement facile de distinguer les images créées par l'homme de celles générées par l'IA. À l'époque, demander à un modèle d'image de créer un menu pour un restaurant mexicain donnait souvent lieu à des plats bizarres et inventés de toutes pièces, tels que « enchuita », « churiros », « burrto » ou « margartas ».
Aujourd’hui, lorsque je demande un menu de cuisine mexicaine au tout nouveau modèle ChatGPT Images 2.0, celui-ci produit quelque chose qui pourrait être utilisé immédiatement dans un vrai restaurant, sans que les clients ne remarquent quoi que ce soit d’anormal. (Même si un ceviche à 13,50 $ pourrait encore soulever quelques questions quant à la qualité du poisson).

Crédits image : ChatGPT Images 2.0
À titre de comparaison, voici le résultat que j’ai obtenu avec DALL-E 3 il y a deux ans. (À l’époque, ChatGPT ne disposait pas de capacités de génération d’images) :

Crédits image : Microsoft Designer (DALL-E 3)
Historiquement, les générateurs d'images basés sur l'IA ont toujours rencontré d'importantes difficultés avec l'orthographe. Cela s'explique en grande partie par le fait qu'ils s'appuyaient généralement sur des modèles de diffusion, qui reconstruisent des images à partir de bruit aléatoire.
« Les modèles de diffusion [...] reconstruisent une entrée donnée », a expliqué Asmelash Teka Hadgu, fondateur et PDG de Lesan AI, à TechCrunch en 2024. « On peut considérer que le texte sur une image est un élément très mineur, donc le générateur d’images donne la priorité à l’apprentissage des motifs visuels qui occupent le plus de pixels. »
Depuis lors, les chercheurs ont exploré d’autres approches de la génération d’images, telles que les modèles autorégressifs. Ces modèles prédisent étape par étape à quoi une image devrait ressembler, fonctionnant de manière plus similaire aux grands modèles linguistiques (LLM).
Malheureusement, OpenAI a refusé de répondre à une question posée lors d’une conférence de presse cette semaine concernant l’architecture spécifique du modèle qui alimente ChatGPT Images 2.0.
La société a toutefois précisé que le nouveau modèle possédait des « capacités de réflexion ». Cela lui permet d’effectuer des recherches sur le Web, de créer plusieurs images à partir d’une seule invite et d’examiner ses propres résultats. Ces fonctionnalités permettent à Images 2.0 de produire des supports marketing dans différentes dimensions, ainsi que des bandes dessinées à plusieurs cases.
OpenAI indique également qu'Images 2.0 maîtrise mieux le rendu des scripts non latins, notamment le japonais, le coréen, l'hindi et le bengali. Les connaissances du modèle sont à jour jusqu'en décembre 2025, ce qui peut affecter sa précision lors de la génération d'images liées à des événements très récents.
« Images 2.0 offre un niveau de détail et de précision sans précédent dans la création d’images. Il est non seulement capable de conceptualiser des scènes plus complexes, mais aussi de concrétiser efficacement cette vision. Il suit les instructions avec précision, conserve les détails demandés et rend des éléments très fins qui posent souvent des difficultés à d’autres modèles d’image — tels que les petits textes, les icônes, les composants d’interface utilisateur, les compositions complexes et les nuances stylistiques subtiles — le tout à des résolutions allant jusqu’à 2K », a noté OpenAI dans un communiqué de presse.
Ces capacités avancées signifient que la génération d’images n’est pas aussi instantanée que de poser une question textuelle à ChatGPT. Cependant, la création de quelque chose de complexe, comme une bande dessinée en plusieurs cases, ne prend toujours que quelques minutes.
Tous les utilisateurs de ChatGPT et Codex auront accès à Images 2.0 à partir de mardi, les abonnés payants pouvant générer des résultats plus avancés. La société lancera également l’API gpt-image-2, dont les tarifs seront basés sur la qualité et la résolution souhaitées.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (0)
Il y a encore quelques années, il était relativement facile de distinguer les images créées par l'homme de celles générées par l'IA. À l'époque, demander à un modèle d'image de créer un menu pour un restaurant mexicain donnait souvent lieu à des plats bizarres et inventés de toutes pièces, tels que « enchuita », « churiros », « burrto » ou « margartas ».
Aujourd’hui, lorsque je demande un menu de cuisine mexicaine au tout nouveau modèle ChatGPT Images 2.0, celui-ci produit quelque chose qui pourrait être utilisé immédiatement dans un vrai restaurant, sans que les clients ne remarquent quoi que ce soit d’anormal. (Même si un ceviche à 13,50 $ pourrait encore soulever quelques questions quant à la qualité du poisson).

Crédits image : ChatGPT Images 2.0
À titre de comparaison, voici le résultat que j’ai obtenu avec DALL-E 3 il y a deux ans. (À l’époque, ChatGPT ne disposait pas de capacités de génération d’images) :

Crédits image : Microsoft Designer (DALL-E 3)
Historiquement, les générateurs d'images basés sur l'IA ont toujours rencontré d'importantes difficultés avec l'orthographe. Cela s'explique en grande partie par le fait qu'ils s'appuyaient généralement sur des modèles de diffusion, qui reconstruisent des images à partir de bruit aléatoire.
« Les modèles de diffusion [...] reconstruisent une entrée donnée », a expliqué Asmelash Teka Hadgu, fondateur et PDG de Lesan AI, à TechCrunch en 2024. « On peut considérer que le texte sur une image est un élément très mineur, donc le générateur d’images donne la priorité à l’apprentissage des motifs visuels qui occupent le plus de pixels. »
Depuis lors, les chercheurs ont exploré d’autres approches de la génération d’images, telles que les modèles autorégressifs. Ces modèles prédisent étape par étape à quoi une image devrait ressembler, fonctionnant de manière plus similaire aux grands modèles linguistiques (LLM).
Malheureusement, OpenAI a refusé de répondre à une question posée lors d’une conférence de presse cette semaine concernant l’architecture spécifique du modèle qui alimente ChatGPT Images 2.0.
La société a toutefois précisé que le nouveau modèle possédait des « capacités de réflexion ». Cela lui permet d’effectuer des recherches sur le Web, de créer plusieurs images à partir d’une seule invite et d’examiner ses propres résultats. Ces fonctionnalités permettent à Images 2.0 de produire des supports marketing dans différentes dimensions, ainsi que des bandes dessinées à plusieurs cases.
OpenAI indique également qu'Images 2.0 maîtrise mieux le rendu des scripts non latins, notamment le japonais, le coréen, l'hindi et le bengali. Les connaissances du modèle sont à jour jusqu'en décembre 2025, ce qui peut affecter sa précision lors de la génération d'images liées à des événements très récents.
« Images 2.0 offre un niveau de détail et de précision sans précédent dans la création d’images. Il est non seulement capable de conceptualiser des scènes plus complexes, mais aussi de concrétiser efficacement cette vision. Il suit les instructions avec précision, conserve les détails demandés et rend des éléments très fins qui posent souvent des difficultés à d’autres modèles d’image — tels que les petits textes, les icônes, les composants d’interface utilisateur, les compositions complexes et les nuances stylistiques subtiles — le tout à des résolutions allant jusqu’à 2K », a noté OpenAI dans un communiqué de presse.
Ces capacités avancées signifient que la génération d’images n’est pas aussi instantanée que de poser une question textuelle à ChatGPT. Cependant, la création de quelque chose de complexe, comme une bande dessinée en plusieurs cases, ne prend toujours que quelques minutes.
Tous les utilisateurs de ChatGPT et Codex auront accès à Images 2.0 à partir de mardi, les abonnés payants pouvant générer des résultats plus avancés. La société lancera également l’API gpt-image-2, dont les tarifs seront basés sur la qualité et la résolution souhaitées.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc





Maison






