O modelo Images 2.0 do ChatGPT se destaca na geração de texto
Há apenas alguns anos, distinguir imagens criadas por humanos daquelas geradas por IA era relativamente simples. Naquela época, pedir a um modelo de imagem para criar um cardápio para um restaurante mexicano costumava resultar em pratos bizarros e inventados, como “enchuita”, “churiros”, “burrto” ou “margartas”.
Hoje, quando peço um cardápio de comida mexicana ao novíssimo modelo ChatGPT Images 2.0, ele produz algo que poderia ser usado imediatamente em um restaurante de verdade, sem que os clientes provavelmente percebam nada de errado. (Embora um ceviche de US$ 13,50 ainda possa levantar algumas dúvidas sobre a qualidade do peixe).

Créditos da imagem: ChatGPT Images 2.0
Para comparação, aqui está o resultado que recebi do DALL-E 3 há dois anos. (Naquela época, o ChatGPT não tinha recursos de geração de imagens):

Créditos da imagem: Microsoft Designer (DALL-E 3)
Historicamente, os geradores de imagens de IA têm enfrentado dificuldades significativas com a ortografia. Isso se deve, em grande parte, ao fato de que eles normalmente dependiam de modelos de difusão, que reconstroem imagens a partir de ruído aleatório.
“Os modelos de difusão [...] estão reconstruindo uma determinada entrada”, explicou Asmelash Teka Hadgu, fundador e CEO da Lesan AI, ao TechCrunch em 2024. “Podemos considerar o texto em uma imagem como um componente muito secundário, então o gerador de imagens prioriza o aprendizado dos padrões visuais que ocupam mais pixels.”
Desde então, pesquisadores têm investigado outras abordagens para a geração de imagens, como modelos autorregressivos. Esses modelos prevêem como uma imagem deve ficar passo a passo, funcionando de maneira mais semelhante aos grandes modelos de linguagem (LLMs).
Infelizmente, a OpenAI se recusou a responder a uma pergunta durante uma coletiva de imprensa esta semana sobre a arquitetura específica do modelo que alimenta o ChatGPT Images 2.0.
A empresa esclareceu, no entanto, que o novo modelo possui “capacidades de raciocínio”. Isso permite que ele pesquise na web, crie várias imagens a partir de um único prompt e analise seus próprios resultados. Esses recursos permitem que o Images 2.0 produza materiais de marketing em várias dimensões, bem como histórias em quadrinhos com vários painéis.
A OpenAI também afirma que o Images 2.0 tem um melhor domínio da renderização de escritas não latinas, incluindo japonês, coreano, hindi e bengali. O conhecimento do modelo está atualizado até dezembro de 2025, o que pode afetar sua precisão ao gerar imagens relacionadas a eventos muito recentes.
“O Images 2.0 oferece um nível sem precedentes de detalhe e precisão na criação de imagens. Ele não só consegue conceber cenas mais complexas, mas também executar essa visão de forma eficaz. Ele segue instruções com precisão, mantém os detalhes solicitados e renderiza elementos minuciosos que muitas vezes desafiam outros modelos de imagem — como textos pequenos, ícones, componentes de interface do usuário, composições complexas e nuances estilísticas sutis — tudo em resoluções de até 2K”, observou a OpenAI em um comunicado à imprensa.
Esses recursos avançados significam que a geração de imagens não é tão instantânea quanto fazer uma pergunta de texto ao ChatGPT. No entanto, criar algo complexo, como uma história em quadrinhos com vários painéis, ainda leva apenas alguns minutos.
Todos os usuários do ChatGPT e do Codex terão acesso ao Images 2.0 a partir de terça-feira, com assinantes pagos podendo gerar resultados mais avançados. A empresa também lançará a API gpt-image-2, com preços baseados na qualidade e resolução desejadas para o resultado.
Artigo relacionado
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c
Recomendações de tópicos especiais relacionados
Comentários (0)
Há apenas alguns anos, distinguir imagens criadas por humanos daquelas geradas por IA era relativamente simples. Naquela época, pedir a um modelo de imagem para criar um cardápio para um restaurante mexicano costumava resultar em pratos bizarros e inventados, como “enchuita”, “churiros”, “burrto” ou “margartas”.
Hoje, quando peço um cardápio de comida mexicana ao novíssimo modelo ChatGPT Images 2.0, ele produz algo que poderia ser usado imediatamente em um restaurante de verdade, sem que os clientes provavelmente percebam nada de errado. (Embora um ceviche de US$ 13,50 ainda possa levantar algumas dúvidas sobre a qualidade do peixe).

Créditos da imagem: ChatGPT Images 2.0
Para comparação, aqui está o resultado que recebi do DALL-E 3 há dois anos. (Naquela época, o ChatGPT não tinha recursos de geração de imagens):

Créditos da imagem: Microsoft Designer (DALL-E 3)
Historicamente, os geradores de imagens de IA têm enfrentado dificuldades significativas com a ortografia. Isso se deve, em grande parte, ao fato de que eles normalmente dependiam de modelos de difusão, que reconstroem imagens a partir de ruído aleatório.
“Os modelos de difusão [...] estão reconstruindo uma determinada entrada”, explicou Asmelash Teka Hadgu, fundador e CEO da Lesan AI, ao TechCrunch em 2024. “Podemos considerar o texto em uma imagem como um componente muito secundário, então o gerador de imagens prioriza o aprendizado dos padrões visuais que ocupam mais pixels.”
Desde então, pesquisadores têm investigado outras abordagens para a geração de imagens, como modelos autorregressivos. Esses modelos prevêem como uma imagem deve ficar passo a passo, funcionando de maneira mais semelhante aos grandes modelos de linguagem (LLMs).
Infelizmente, a OpenAI se recusou a responder a uma pergunta durante uma coletiva de imprensa esta semana sobre a arquitetura específica do modelo que alimenta o ChatGPT Images 2.0.
A empresa esclareceu, no entanto, que o novo modelo possui “capacidades de raciocínio”. Isso permite que ele pesquise na web, crie várias imagens a partir de um único prompt e analise seus próprios resultados. Esses recursos permitem que o Images 2.0 produza materiais de marketing em várias dimensões, bem como histórias em quadrinhos com vários painéis.
A OpenAI também afirma que o Images 2.0 tem um melhor domínio da renderização de escritas não latinas, incluindo japonês, coreano, hindi e bengali. O conhecimento do modelo está atualizado até dezembro de 2025, o que pode afetar sua precisão ao gerar imagens relacionadas a eventos muito recentes.
“O Images 2.0 oferece um nível sem precedentes de detalhe e precisão na criação de imagens. Ele não só consegue conceber cenas mais complexas, mas também executar essa visão de forma eficaz. Ele segue instruções com precisão, mantém os detalhes solicitados e renderiza elementos minuciosos que muitas vezes desafiam outros modelos de imagem — como textos pequenos, ícones, componentes de interface do usuário, composições complexas e nuances estilísticas sutis — tudo em resoluções de até 2K”, observou a OpenAI em um comunicado à imprensa.
Esses recursos avançados significam que a geração de imagens não é tão instantânea quanto fazer uma pergunta de texto ao ChatGPT. No entanto, criar algo complexo, como uma história em quadrinhos com vários painéis, ainda leva apenas alguns minutos.
Todos os usuários do ChatGPT e do Codex terão acesso ao Images 2.0 a partir de terça-feira, com assinantes pagos podendo gerar resultados mais avançados. A empresa também lançará a API gpt-image-2, com preços baseados na qualidade e resolução desejadas para o resultado.
Satya Nadella está pronto para aproveitar o novo acordo com a OpenAI
Na quarta-feira, um analista da Wall Street perguntou diretamente ao CEO da Microsoft, Satya Nadella, como a nova parceria com a OpenAI afetaria os resultados financeiros da empresa.Nadella descreveu o novo acordo como uma vitória para todos. “Estam
A OpenAI traça os contornos da economia da IA com fundos de riqueza pública, impostos sobre robôs e a semana de quatro dias
Enquanto os governos lutam para lidar com o impacto econômico das máquinas superinteligentes, a OpenAI divulgou um conjunto de propostas de políticas que delineiam como a riqueza e o trabalho poderiam
Greg Brockman revela como Elon Musk deixou a OpenAI
No final de agosto de 2017, figuras-chave da OpenAI — na época, um pequeno laboratório de pesquisa sem fins lucrativos — se reuniram para discutir como criariam uma entidade com fins lucrativos para c





Lar






