Heim
Das 13-köpfige Kernteam von GPT Image2 wurde nach einer viermonatigen Umstrukturierung vorgestellt
Vor kurzem hat GPT Image2 mit seiner atemberaubend realistischen Bildgenerierung die sozialen Medien im Sturm erobert. Als die Popularität des Projekts sprunghaft anstieg, rückte das kleine, bisher eher unauffällige Team dahinter ins Rampenlicht. Informationen zufolge besteht das Kernteam aus nur 13 Personen, denen es gelang, die zugrunde liegende Architektur in nur vier Monaten komplett neu zu schreiben. Obwohl Forschungsleiter Chen Boyuan keine konkreten technischen Details preisgegeben hat, beschreibt er dieses neue Modell als „das GPT für den visuellen Bereich“ und signalisiert damit einen großen Sprung nach vorne bei den Allzweckfähigkeiten.
Die Schlüsselfigur des Teams, Chen Boyuan , blickt auf einen bemerkenswerten persönlichen Werdegang zurück. Während seiner Promotion leistete er Pionierarbeit bei innovativen Ansätzen wie „Diffusion Forcing“ und trug zu Techniken zur Anweisungsoptimierung bei, die später von Googles Gemini 2.0 übernommen wurden. Interessanterweise kannte er Python noch nicht einmal, als er zum ersten Mal an einem Wissenschaftscamp für Schüler teilnahm. Nach seinem Wechsel zu OpenAI leitete er nicht nur das gesamte Training für das GPT-Bildmodell, sondern war auch ein Kernmitglied des Sora-Videogenerierungsteams. In einer Demonstration hob er das fortschrittliche Sprachverständnis des Modells hervor, indem er Poster mit perfekt gerendertem Text in Chinesisch, Koreanisch und Bengali generierte.

Über die Textdarstellung hinaus hat GPT Image2 neue Höhen beim Verstehen von Weltwissen und beim Befolgen komplexer Anweisungen erreicht. Dieses Modul, geleitet von Dr. Jianfeng Wang von der University of Science and Technology of China, geht ein hartnäckiges Problem bei der KI-Bildgenerierung an – wie zum Beispiel, dass ältere Modelle standardmäßig immer Uhren auf 10:10 zeichnen. Das neue Modell interpretiert jede angegebene Zeit und komplexe räumliche Anordnungen präzise. Dr. Wang merkt an, dass das Modell die Lücke zwischen der kreativen Vision eines Nutzers und dem endgültigen generierten Ergebnis effektiv schließt.
Im Bereich Produktivität demonstrierte Yuguang Yang vom Zhuyuan College der Zhejiang-Universität die Fähigkeit des Tools, umfangreiche Forschungsarbeiten sofort in hochpräzise PowerPoint-Präsentationen und Infografiken umzuwandeln. Diese Fähigkeit beruht auf der tiefgreifenden Integration von multimodalem Verständnis, der Mixture-of-Experts-Architektur (MoE) und der Long-Context-Guidance-Technologie durch das Team.
Vom ursprünglichen DALL-E bis zum heutigen GPT Image2
Verwandter Artikel
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
OpenAI übernimmt das AI-Start-up für persönliche Finanzen Hiro
OpenAI hat das Finanzstart-up Hiro Finance übernommen, wie Gründer Ethan Bloch am Montag bekannt gab. OpenAI bestätigte die Übernahme gegenüber TechCrunch. Das Start-up erhielt Unterstützung von der führenden Fintech-Venture-Capital-Firma Ribbit sowi
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Vor kurzem hat
Die Schlüsselfigur des Teams,

Über die Textdarstellung hinaus hat
Im Bereich Produktivität demonstrierte Yuguang Yang vom Zhuyuan College der Zhejiang-Universität die Fähigkeit des Tools, umfangreiche Forschungsarbeiten sofort in hochpräzise PowerPoint-Präsentationen und Infografiken umzuwandeln. Diese Fähigkeit beruht auf der tiefgreifenden Integration von multimodalem Verständnis, der Mixture-of-Experts-Architektur (MoE) und der Long-Context-Guidance-Technologie durch das Team.
Vom ursprünglichen DALL-E bis zum heutigen
OpenAI arbeitet mit dem US-Verteidigungsministerium zusammen – Die Zahl der Deinstallierungen von ChatGPT steigt um 295 Prozent
Öffentliche Empörung: OpenAI’s Militärpartnerschaft löst eine Welle von Abmeldungen ausKürzlich kündigte der führende KI-Anbieter OpenAI eine enge Partnerschaft mit dem US-Verteidigungsministerium an, bei der seine KI-Modelle in hochgeheime militäri
OpenAI führt die „Sites“-Funktion ein und läutet mit den auf Word basierenden Websites das Ende der No-Code-Ära ein
OpenAI hat „Sites“ vorgestellt, eine neue Funktion für „Codex“, seine KI für die Softwareentwicklung. Die Funktion befindet sich derzeit in der Vorschauphase und steht nur zahlenden Business- und Ente
OpenAI übernimmt das AI-Start-up für persönliche Finanzen Hiro
OpenAI hat das Finanzstart-up Hiro Finance übernommen, wie Gründer Ethan Bloch am Montag bekannt gab. OpenAI bestätigte die Übernahme gegenüber TechCrunch. Das Start-up erhielt Unterstützung von der führenden Fintech-Venture-Capital-Firma Ribbit sowi











