Maison
L'équipe principale de GPT Image2, composée de 13 membres, dévoilée après quatre mois de refonte
Récemment, GPT Image2 a fait sensation sur les réseaux sociaux grâce à sa capacité à générer des images d'un réalisme saisissant. Alors que la popularité du projet montait en flèche, la petite équipe discrète à l'origine de ce succès s'est retrouvée sous les feux de la rampe. Selon les informations disponibles, l'équipe principale ne compte que 13 personnes, qui ont réussi à réécrire entièrement l'architecture sous-jacente en seulement quatre mois. Bien que le responsable de la recherche, Chen Boyuan, n'ait pas divulgué de détails techniques spécifiques, il décrit ce nouveau modèle comme « le GPT du domaine visuel », annonçant ainsi un bond en avant majeur en matière de capacités polyvalentes.
La figure clé de l'équipe, Chen Boyuan , a un parcours personnel remarquable. Au cours de son doctorat, il a été le pionnier d'approches innovantes telles que le « Diffusion Forcing » et a contribué aux techniques d'ajustement des instructions adoptées par la suite par Gemini 2.0 de Google. Il est intéressant de noter qu'il ne connaissait même pas Python lorsqu'il a rejoint pour la première fois un camp scientifique au lycée. Après avoir rejoint OpenAI, il a non seulement dirigé l’ensemble de la formation du modèle d’image GPT, mais a également été un membre clé de l’équipe de génération vidéo Sora. Lors d’une démonstration, il a mis en avant la compréhension linguistique avancée du modèle en générant des affiches avec du texte parfaitement rendu en chinois, en coréen et en bengali.

Au-delà du rendu de texte, GPT Image2 a atteint de nouveaux sommets dans la compréhension des connaissances du monde et le suivi d'instructions complexes. Ce module, dirigé par le Dr Jianfeng Wang de l'Université des sciences et technologies de Chine, s'attaque à un problème récurrent dans la génération d'images par IA — comme le fait que les anciens modèles dessinaient toujours par défaut des horloges à 10 h 10. Le nouveau modèle interprète avec précision toute heure spécifiée et toute disposition spatiale complexe. Le Dr Wang souligne que le modèle comble efficacement le fossé entre la vision créative de l'utilisateur et le résultat final généré.
En matière de productivité, Yuguang Yang, du Zhuyuan College de l'université du Zhejiang, a présenté la capacité de l'outil à convertir instantanément de longs articles de recherche en présentations PowerPoint et en infographies de haute précision. Cette capacité découle de l'intégration poussée par l'équipe de la compréhension multimodale, de l'architecture Mixture of Experts (MoE) et de la technologie de guidage à long contexte.
Du DALL-E original au GPT Image2 d'aujourd'hui
Article connexe
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des
Recommandations de sujets spéciaux liés
commentaires (0)
Récemment,
La figure clé de l'équipe,

Au-delà du rendu de texte,
En matière de productivité, Yuguang Yang, du Zhuyuan College de l'université du Zhejiang, a présenté la capacité de l'outil à convertir instantanément de longs articles de recherche en présentations PowerPoint et en infographies de haute précision. Cette capacité découle de l'intégration poussée par l'équipe de la compréhension multimodale, de l'architecture Mixture of Experts (MoE) et de la technologie de guidage à long contexte.
Du DALL-E original au
Le MIIT sollicite les avis du public concernant 121 normes industrielles, y compris le protocole de contexte pour les modèles d'intelligence artificielle.
Le ministère de l’Industrie et de l’Information technologique de la Chine a officiellement publié une annonce demandant aux citoyens de donner leur avis sur 121 projets de normalisation industrielle, y compris les “Exigences en matière de sécurité ap
OpenAI s’allie avec le Département de la Défense des États-Unis ; les installations de ChatGPT augmentent de 295 %.
Indignation du public : La collaboration militaire d’OpenAI déclenche une vague de désinstallationsRécemment, le leader de l’intelligence artificielle OpenAI a annoncé un partenariat étroit avec le Département de la Défense des États-Unis, intégrant
OpenAI lance la fonctionnalité « Sites », marquant la fin de l'ère du « no-code » avec des sites web créés à partir de texte
OpenAI a lancé « Sites », une nouvelle fonctionnalité pour Codex, son outil d'IA dédié à l'ingénierie logicielle. Actuellement en phase de préversion, elle n'est accessible qu'aux abonnés payants des











