Heim
Das „Images 2.0“-Modell von ChatGPT zeichnet sich durch seine Fähigkeiten zur Textgenerierung aus
Noch vor wenigen Jahren war es relativ einfach, von Menschen geschaffene Bilder von KI-generierten zu unterscheiden. Damals führte die Aufforderung an ein Bildmodell, eine Speisekarte für ein mexikanisches Restaurant zu erstellen, oft zu bizarren, erfundenen Gerichten wie „Enchuita“, „Churiros“, „Burrto“ oder „Margartas“.
Wenn ich heute beim brandneuen ChatGPT Images 2.0-Modell eine Speisekarte für mexikanisches Essen anfordere, erzeugt es etwas, das sofort in einem echten Restaurant verwendet werden könnte, ohne dass Kunden wahrscheinlich etwas Ungewöhnliches bemerken würden. (Obwohl ein Ceviche für 13,50 $ vielleicht immer noch Fragen zur Fischqualität aufwerfen könnte).

Bildnachweis: ChatGPT Images 2.0
Zum Vergleich: Hier ist das Ergebnis, das ich vor zwei Jahren von DALL-E 3 erhalten habe. (Zu diesem Zeitpunkt verfügte ChatGPT noch nicht über Funktionen zur Bilderzeugung):

Bildnachweis: Microsoft Designer (DALL-E 3)
In der Vergangenheit hatten KI-Bildgeneratoren erhebliche Schwierigkeiten mit der Rechtschreibung. Dies liegt vor allem daran, dass sie sich in der Regel auf Diffusionsmodelle stützten, die Bilder aus zufälligem Rauschen rekonstruieren.
„Die Diffusionsmodelle […] rekonstruieren eine bestimmte Eingabe“, erklärte Asmelash Teka Hadgu, Gründer und CEO von Lesan AI, gegenüber TechCrunch im Jahr 2024. „Wir können Text auf einem Bild als sehr nebensächlichen Bestandteil betrachten, daher priorisiert der Bildgenerator das Erlernen der visuellen Muster, die mehr Pixel einnehmen.“
Seitdem haben Forscher andere Ansätze zur Bildgenerierung untersucht, wie beispielsweise autoregressive Modelle. Diese Modelle sagen Schritt für Schritt voraus, wie ein Bild aussehen sollte, und funktionieren dabei ähnlich wie große Sprachmodelle (LLMs).
Leider lehnte es OpenAI ab, während einer Pressekonferenz in dieser Woche eine Frage zur spezifischen Modellarchitektur zu beantworten, die ChatGPT Images 2.0 antreibt.
Das Unternehmen stellte jedoch klar, dass das neue Modell über „Denkfähigkeiten“ verfügt. Dies ermöglicht es ihm, das Internet zu durchsuchen, mehrere Bilder aus einer einzigen Eingabe zu erstellen und seine eigenen Ergebnisse zu überprüfen. Dank dieser Funktionen kann Images 2.0 Marketingmaterialien in verschiedenen Formaten sowie mehrteilige Comics erstellen.
OpenAI gibt außerdem an, dass Images 2.0 nicht-lateinische Schriften, darunter Japanisch, Koreanisch, Hindi und Bengali, besser darstellen kann. Das Wissen des Modells ist auf den Stand von Dezember 2025 aktualisiert, was sich auf die Genauigkeit bei der Erzeugung von Bildern zu sehr aktuellen Ereignissen auswirken kann.
„Images 2.0 bietet ein beispielloses Maß an Detailtreue und Genauigkeit bei der Bilderstellung. Es kann nicht nur komplexere Szenen konzipieren, sondern diese Vision auch effektiv umsetzen. Es befolgt Anweisungen präzise, behält gewünschte Details bei und rendert feinkörnige Elemente, die andere Bildmodelle oft vor Herausforderungen stellen – wie kleiner Text, Symbole, UI-Komponenten, komplizierte Kompositionen und subtile stilistische Nuancen –, und das alles bei Auflösungen von bis zu 2K“, so OpenAI in einer Pressemitteilung.
Diese erweiterten Funktionen bedeuten, dass die Bilderzeugung nicht so unmittelbar erfolgt wie das Stellen einer Textfrage an ChatGPT. Die Erstellung komplexer Inhalte, wie beispielsweise eines mehrteiligen Comics, dauert jedoch immer noch nur wenige Minuten.
Alle ChatGPT- und Codex-Nutzer erhalten ab Dienstag Zugriff auf Images 2.0, wobei zahlende Abonnenten erweiterte Ergebnisse generieren können. Das Unternehmen wird außerdem die gpt-image-2-API veröffentlichen, deren Preise sich nach der gewünschten Ausgabequalität und Auflösung richten.
Verwandter Artikel
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)
Noch vor wenigen Jahren war es relativ einfach, von Menschen geschaffene Bilder von KI-generierten zu unterscheiden. Damals führte die Aufforderung an ein Bildmodell, eine Speisekarte für ein mexikanisches Restaurant zu erstellen, oft zu bizarren, erfundenen Gerichten wie „Enchuita“, „Churiros“, „Burrto“ oder „Margartas“.
Wenn ich heute beim brandneuen ChatGPT Images 2.0-Modell eine Speisekarte für mexikanisches Essen anfordere, erzeugt es etwas, das sofort in einem echten Restaurant verwendet werden könnte, ohne dass Kunden wahrscheinlich etwas Ungewöhnliches bemerken würden. (Obwohl ein Ceviche für 13,50 $ vielleicht immer noch Fragen zur Fischqualität aufwerfen könnte).

Bildnachweis: ChatGPT Images 2.0
Zum Vergleich: Hier ist das Ergebnis, das ich vor zwei Jahren von DALL-E 3 erhalten habe. (Zu diesem Zeitpunkt verfügte ChatGPT noch nicht über Funktionen zur Bilderzeugung):

Bildnachweis: Microsoft Designer (DALL-E 3)
In der Vergangenheit hatten KI-Bildgeneratoren erhebliche Schwierigkeiten mit der Rechtschreibung. Dies liegt vor allem daran, dass sie sich in der Regel auf Diffusionsmodelle stützten, die Bilder aus zufälligem Rauschen rekonstruieren.
„Die Diffusionsmodelle […] rekonstruieren eine bestimmte Eingabe“, erklärte Asmelash Teka Hadgu, Gründer und CEO von Lesan AI, gegenüber TechCrunch im Jahr 2024. „Wir können Text auf einem Bild als sehr nebensächlichen Bestandteil betrachten, daher priorisiert der Bildgenerator das Erlernen der visuellen Muster, die mehr Pixel einnehmen.“
Seitdem haben Forscher andere Ansätze zur Bildgenerierung untersucht, wie beispielsweise autoregressive Modelle. Diese Modelle sagen Schritt für Schritt voraus, wie ein Bild aussehen sollte, und funktionieren dabei ähnlich wie große Sprachmodelle (LLMs).
Leider lehnte es OpenAI ab, während einer Pressekonferenz in dieser Woche eine Frage zur spezifischen Modellarchitektur zu beantworten, die ChatGPT Images 2.0 antreibt.
Das Unternehmen stellte jedoch klar, dass das neue Modell über „Denkfähigkeiten“ verfügt. Dies ermöglicht es ihm, das Internet zu durchsuchen, mehrere Bilder aus einer einzigen Eingabe zu erstellen und seine eigenen Ergebnisse zu überprüfen. Dank dieser Funktionen kann Images 2.0 Marketingmaterialien in verschiedenen Formaten sowie mehrteilige Comics erstellen.
OpenAI gibt außerdem an, dass Images 2.0 nicht-lateinische Schriften, darunter Japanisch, Koreanisch, Hindi und Bengali, besser darstellen kann. Das Wissen des Modells ist auf den Stand von Dezember 2025 aktualisiert, was sich auf die Genauigkeit bei der Erzeugung von Bildern zu sehr aktuellen Ereignissen auswirken kann.
„Images 2.0 bietet ein beispielloses Maß an Detailtreue und Genauigkeit bei der Bilderstellung. Es kann nicht nur komplexere Szenen konzipieren, sondern diese Vision auch effektiv umsetzen. Es befolgt Anweisungen präzise, behält gewünschte Details bei und rendert feinkörnige Elemente, die andere Bildmodelle oft vor Herausforderungen stellen – wie kleiner Text, Symbole, UI-Komponenten, komplizierte Kompositionen und subtile stilistische Nuancen –, und das alles bei Auflösungen von bis zu 2K“, so OpenAI in einer Pressemitteilung.
Diese erweiterten Funktionen bedeuten, dass die Bilderzeugung nicht so unmittelbar erfolgt wie das Stellen einer Textfrage an ChatGPT. Die Erstellung komplexer Inhalte, wie beispielsweise eines mehrteiligen Comics, dauert jedoch immer noch nur wenige Minuten.
Alle ChatGPT- und Codex-Nutzer erhalten ab Dienstag Zugriff auf Images 2.0, wobei zahlende Abonnenten erweiterte Ergebnisse generieren können. Das Unternehmen wird außerdem die gpt-image-2-API veröffentlichen, deren Preise sich nach der gewünschten Ausgabequalität und Auflösung richten.
Satya Nadella bereit, die neuen Vorteile der Vereinbarung mit OpenAI zu nutzen
Am Mittwoch fragte ein Analyst von Wall Street den Microsoft-CEO Satya Nadella direkt, wie die überarbeitete Partnerschaft mit OpenAI die finanziellen Ergebnisse des Unternehmens beeinflussen würde.Nadella bezeichnete die neue Vereinbarung als einen
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um











