Модель ChatGPT Images 2.0 отлично справляется с генерацией текста
Всего пару лет назад отличить изображения, созданные человеком, от сгенерированных ИИ было относительно просто. Тогда, если попросить модель обработки изображений создать меню для мексиканского ресторана, в результате часто получались причудливые, выдуманные блюда, такие как «энчуита», «чурирос», «буррто» или «маргартас».
Сегодня, когда я запрашиваю меню мексиканской кухни у новой модели ChatGPT Images 2.0, она генерирует нечто, что можно сразу использовать в реальном ресторане, и клиенты вряд ли заметят что-то неладное. (Хотя севиче за 13,50 долларов все же может вызвать некоторые вопросы относительно качества рыбы).

Источник изображения: ChatGPT Images 2.0
Для сравнения, вот результат, который я получил от DALL-E 3 два года назад. (В то время у ChatGPT не было возможностей генерации изображений):

Источник изображения: Microsoft Designer (DALL-E 3)
Исторически сложилось так, что генераторы изображений на базе ИИ испытывали значительные трудности с орфографией. Во многом это связано с тем, что они обычно полагались на диффузионные модели, которые реконструируют изображения из случайного шума.
«Диффузионные модели [...] реконструируют заданный входной сигнал», — пояснил TechCrunch в 2024 году Асмелаш Тека Хадгу, основатель и генеральный директор Lesan AI. «Мы можем считать текст на изображении очень незначительным компонентом, поэтому генератор изображений уделяет приоритетное внимание изучению визуальных паттернов, которые занимают больше пикселей».
С тех пор исследователи изучают другие подходы к генерации изображений, такие как авторегрессионные модели. Эти модели шаг за шагом предсказывают, как должно выглядеть изображение, работая по принципу, более схожему с большими языковыми моделями (LLM).
К сожалению, OpenAI отказалась отвечать на вопрос во время пресс-брифинга на этой неделе относительно конкретной архитектуры модели, лежащей в основе ChatGPT Images 2.0.
Однако компания уточнила, что новая модель обладает «способностями к мышлению». Это позволяет ей искать информацию в Интернете, создавать несколько изображений по одному запросу и анализировать собственные результаты. Эти функции позволяют Images 2.0 создавать маркетинговые материалы различных форматов, а также многопанельные комиксы.
OpenAI также заявляет, что Images 2.0 лучше справляется с рендерингом нелатинских шрифтов, включая японский, корейский, хинди и бенгальский. Знания модели актуальны до декабря 2025 года, что может повлиять на ее точность при генерации изображений, связанных с самыми свежими событиями.
«Images 2.0 обеспечивает беспрецедентный уровень детализации и точности при создании изображений. Он может не только концептуализировать более сложные сцены, но и эффективно воплощать эту концепцию. Он точно следует инструкциям, сохраняет запрашиваемые детали и отображает мелкодетализированные элементы, которые часто представляют сложность для других моделей генерации изображений — такие как мелкий текст, значки, компоненты пользовательского интерфейса, сложные композиции и тонкие стилистические нюансы — и все это с разрешением до 2K», — отмечает OpenAI в пресс-релизе.
Эти расширенные возможности означают, что генерация изображений не происходит так мгновенно, как при задании текстового вопроса ChatGPT. Однако создание чего-то сложного, например многопанельного комикса, по-прежнему занимает всего несколько минут.
Все пользователи ChatGPT и Codex получат доступ к Images 2.0 со вторника, при этом платные подписчики смогут генерировать более продвинутые результаты. Компания также выпустит API gpt-image-2, цены на который будут зависеть от желаемого качества и разрешения результата.
Связанная статья
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения
Рекомендации по связанным специальным темам
Комментарии (0)
Всего пару лет назад отличить изображения, созданные человеком, от сгенерированных ИИ было относительно просто. Тогда, если попросить модель обработки изображений создать меню для мексиканского ресторана, в результате часто получались причудливые, выдуманные блюда, такие как «энчуита», «чурирос», «буррто» или «маргартас».
Сегодня, когда я запрашиваю меню мексиканской кухни у новой модели ChatGPT Images 2.0, она генерирует нечто, что можно сразу использовать в реальном ресторане, и клиенты вряд ли заметят что-то неладное. (Хотя севиче за 13,50 долларов все же может вызвать некоторые вопросы относительно качества рыбы).

Источник изображения: ChatGPT Images 2.0
Для сравнения, вот результат, который я получил от DALL-E 3 два года назад. (В то время у ChatGPT не было возможностей генерации изображений):

Источник изображения: Microsoft Designer (DALL-E 3)
Исторически сложилось так, что генераторы изображений на базе ИИ испытывали значительные трудности с орфографией. Во многом это связано с тем, что они обычно полагались на диффузионные модели, которые реконструируют изображения из случайного шума.
«Диффузионные модели [...] реконструируют заданный входной сигнал», — пояснил TechCrunch в 2024 году Асмелаш Тека Хадгу, основатель и генеральный директор Lesan AI. «Мы можем считать текст на изображении очень незначительным компонентом, поэтому генератор изображений уделяет приоритетное внимание изучению визуальных паттернов, которые занимают больше пикселей».
С тех пор исследователи изучают другие подходы к генерации изображений, такие как авторегрессионные модели. Эти модели шаг за шагом предсказывают, как должно выглядеть изображение, работая по принципу, более схожему с большими языковыми моделями (LLM).
К сожалению, OpenAI отказалась отвечать на вопрос во время пресс-брифинга на этой неделе относительно конкретной архитектуры модели, лежащей в основе ChatGPT Images 2.0.
Однако компания уточнила, что новая модель обладает «способностями к мышлению». Это позволяет ей искать информацию в Интернете, создавать несколько изображений по одному запросу и анализировать собственные результаты. Эти функции позволяют Images 2.0 создавать маркетинговые материалы различных форматов, а также многопанельные комиксы.
OpenAI также заявляет, что Images 2.0 лучше справляется с рендерингом нелатинских шрифтов, включая японский, корейский, хинди и бенгальский. Знания модели актуальны до декабря 2025 года, что может повлиять на ее точность при генерации изображений, связанных с самыми свежими событиями.
«Images 2.0 обеспечивает беспрецедентный уровень детализации и точности при создании изображений. Он может не только концептуализировать более сложные сцены, но и эффективно воплощать эту концепцию. Он точно следует инструкциям, сохраняет запрашиваемые детали и отображает мелкодетализированные элементы, которые часто представляют сложность для других моделей генерации изображений — такие как мелкий текст, значки, компоненты пользовательского интерфейса, сложные композиции и тонкие стилистические нюансы — и все это с разрешением до 2K», — отмечает OpenAI в пресс-релизе.
Эти расширенные возможности означают, что генерация изображений не происходит так мгновенно, как при задании текстового вопроса ChatGPT. Однако создание чего-то сложного, например многопанельного комикса, по-прежнему занимает всего несколько минут.
Все пользователи ChatGPT и Codex получат доступ к Images 2.0 со вторника, при этом платные подписчики смогут генерировать более продвинутые результаты. Компания также выпустит API gpt-image-2, цены на который будут зависеть от желаемого качества и разрешения результата.
Сатья Наделла готов использовать новые возможности, предоставляемые соглашением с OpenAI
В среду аналитик с Уолл-стрит напрямую спросил генерального директора Microsoft Сатью Наделлу, как изменения в партнерстве с OpenAI повлияют на финансовые результаты компании.Наделла охарактеризовал новое соглашение как выгодное для всех сторон. “Мы
OpenAI описывает экономику искусственного интеллекта с участием государственных инвестиционных фондов, налогами на роботов и четырехдневной рабочей неделей
В то время как правительства пытаются справиться с экономическими последствиями появления сверхинтеллектуальных машин, компания OpenAI опубликовала ряд предложений по формированию политики, в которых
Грег Брокман рассказывает, как Илон Маск покинул OpenAI
В конце августа 2017 года ключевые фигуры OpenAI — на тот момент небольшой некоммерческой исследовательской лаборатории — собрались, чтобы обсудить, как создать коммерческую структуру для продвижения





Дом






