Lar
Equipe principal do GPT Image2, composta por 13 membros, é revelada após quatro meses de reformulação
Recentemente, o GPT Image2 causou furor nas redes sociais com sua geração de imagens incrivelmente realistas. À medida que a popularidade do projeto disparava, a pequena equipe discreta por trás dele ganhou destaque. Informações revelam que a equipe principal é composta por apenas 13 pessoas, que conseguiram reescrever completamente a arquitetura subjacente em meros quatro meses. Embora o líder de pesquisa Chen Boyuan não tenha divulgado detalhes técnicos específicos, ele descreve esse novo modelo como “o GPT para o domínio visual”, sinalizando um grande salto em frente nas capacidades de uso geral.
A figura-chave da equipe, Chen Boyuan , tem uma trajetória pessoal notável. Durante seu doutorado, ele foi pioneiro em abordagens inovadoras como “Diffusion Forcing” e contribuiu para técnicas de ajuste de instruções posteriormente adotadas pelo Gemini 2.0 do Google. Curiosamente, ele nem mesmo conhecia Python quando participou pela primeira vez de um acampamento de ciências no ensino médio. Depois de passar para a OpenAI, ele não apenas liderou todo o treinamento do modelo de imagem GPT, mas também foi um membro central da equipe de geração de vídeo Sora. Em uma demonstração, ele destacou a compreensão avançada de linguagem do modelo ao gerar pôsteres com texto perfeitamente renderizado em chinês, coreano e bengali.

Além da renderização de texto, o GPT Image2 alcançou novos patamares na compreensão do conhecimento do mundo e no cumprimento de instruções complexas. Este módulo, liderado pelo Dr. Jianfeng Wang, da Universidade de Ciência e Tecnologia da China, aborda uma questão persistente na geração de imagens por IA — como os modelos mais antigos que sempre padronizam o desenho de relógios marcando 10h10. O novo modelo interpreta com precisão qualquer horário especificado e layouts espaciais complexos. O Dr. Wang observa que o modelo está efetivamente preenchendo a lacuna entre a visão criativa do usuário e o resultado final gerado.
No que diz respeito à produtividade, Yuguang Yang, do Zhuyuan College da Universidade de Zhejiang, demonstrou a capacidade da ferramenta de converter instantaneamente longos artigos de pesquisa em apresentações de PowerPoint e infográficos de alta precisão. Essa capacidade decorre da profunda integração da equipe entre compreensão multimodal, arquitetura Mixture of Experts (MoE) e tecnologia de orientação de contexto longo.
Do DALL-E original ao GPT Image2 de hoje
Artigo relacionado
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business
Recomendações de tópicos especiais relacionados
Comentários (0)
Recentemente,
A figura-chave da equipe,

Além da renderização de texto,
No que diz respeito à produtividade, Yuguang Yang, do Zhuyuan College da Universidade de Zhejiang, demonstrou a capacidade da ferramenta de converter instantaneamente longos artigos de pesquisa em apresentações de PowerPoint e infográficos de alta precisão. Essa capacidade decorre da profunda integração da equipe entre compreensão multimodal, arquitetura Mixture of Experts (MoE) e tecnologia de orientação de contexto longo.
Do DALL-E original ao
MIIT Solicita Opiniões Públicas sobre 121 Padrões Industriais, Incluindo o Protocolo de Contexto para Modelos de IA
O Ministério da Indústria e Tecnologia da Informação da China lançou oficialmente um comunicado solicitando feedback público sobre 121 projetos de padronização industrial, incluindo o “Requisitos de Segurança Aplicacional para o Protocolo de Contexto
A OpenAI se alia ao Departamento de Defesa dos EUA; as instalações do ChatGPT aumentam em 295%.
Indignação Pública: A Parceria Militar da OpenAI Provoca uma “Onda de Desinstalações”Recentemente, a líder em tecnologia de IA, OpenAI, anunciou uma parceria profunda com o Departamento de Defesa dos EUA, integrando seus modelos de IA em redes milit
A OpenAI lança o recurso "Sites", marcando o fim da era "no-code" com sites criados a partir de texto
A OpenAI lançou o Sites, um novo recurso para o Codex, sua IA para engenharia de software. Atualmente em fase de pré-lançamento, ele está disponível apenas para assinantes pagantes dos planos Business











