Hogar
Se da a conocer el equipo principal de 13 miembros de GPT Image2 tras cuatro meses de rediseño
Recientemente, GPT Image2 ha causado sensación en las redes sociales gracias a su generación de imágenes de un realismo asombroso. A medida que la popularidad del proyecto se disparaba, el pequeño y discreto equipo que lo desarrollaba pasó a ocupar el centro de la atención. La información revela que el equipo principal está compuesto por tan solo 13 personas, que lograron reescribir por completo la arquitectura subyacente en apenas cuatro meses. Aunque el director de investigación, Chen Boyuan, no ha revelado detalles técnicos específicos, describe este nuevo modelo como «el GPT para el ámbito visual», lo que supone un gran avance en las capacidades de uso general.
La figura clave del equipo, Chen Boyuan , tiene una trayectoria personal notable. Durante su doctorado, fue pionero en enfoques innovadores como el «Diffusion Forcing» y contribuyó a las técnicas de ajuste de instrucciones que posteriormente adoptó Gemini 2.0 de Google. Curiosamente, ni siquiera sabía Python cuando se unió por primera vez a un campamento de ciencias en el instituto. Tras incorporarse a OpenAI, no solo dirigió todo el entrenamiento del modelo de imágenes GPT, sino que también fue miembro clave del equipo de generación de vídeo Sora. En una demostración, destacó la avanzada comprensión del lenguaje del modelo generando carteles con texto perfectamente renderizado en chino, coreano y bengalí.

Más allá de la representación de texto, GPT Image2 ha alcanzado nuevas cotas en la comprensión del conocimiento del mundo y el seguimiento de instrucciones complejas. Este módulo, dirigido por el Dr. Jianfeng Wang de la Universidad de Ciencia y Tecnología de China, aborda un problema persistente en la generación de imágenes con IA, como que los modelos más antiguos siempre dibujaban relojes a las 10:10 por defecto. El nuevo modelo interpreta con precisión cualquier hora especificada y diseños espaciales complejos. El Dr. Wang señala que el modelo está reduciendo de manera efectiva la brecha entre la visión creativa del usuario y el resultado final generado.
En cuanto a la productividad, Yuguang Yang, del Zhuyuan College de la Universidad de Zhejiang, mostró la capacidad de la herramienta para convertir al instante largos artículos de investigación en presentaciones de PowerPoint e infografías de alta precisión. Esta capacidad se deriva de la profunda integración por parte del equipo de la comprensión multimodal, la arquitectura Mixture of Experts (MoE) y la tecnología de orientación de contexto largo.
Desde el DALL-E original hasta el GPT Image2 actual
Artículo relacionado
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Recientemente,
La figura clave del equipo,

Más allá de la representación de texto,
En cuanto a la productividad, Yuguang Yang, del Zhuyuan College de la Universidad de Zhejiang, mostró la capacidad de la herramienta para convertir al instante largos artículos de investigación en presentaciones de PowerPoint e infografías de alta precisión. Esta capacidad se deriva de la profunda integración por parte del equipo de la comprensión multimodal, la arquitectura Mixture of Experts (MoE) y la tecnología de orientación de contexto largo.
Desde el DALL-E original hasta
El MIIT busca comentarios del público sobre 121 estándares industriales, incluido el Protocolo de Contexto para Modelos de IA
El Ministerio de Industria y Tecnologías de la Información de China ha publicado oficialmente un aviso solicitando comentarios del público sobre 121 proyectos de estandarización industrial, incluido el “Requisitos de seguridad aplicativa para el Prot
OpenAI se asocia con el Departamento de Defensa de los EE. UU.; las eliminaciones de ChatGPT aumentan un 295%.
Indignación Pública: La Alianza Militar de OpenAI Desata una Onda de DesinstalacionesRecientemente, el líder en inteligencia artificial OpenAI anunció una estrecha colaboración con el Departamento de Defensa de los Estados Unidos, integrando sus mod
OpenAI lanza la función «Sites», lo que marca el fin de la era «sin código» con sitios web basados en Word
OpenAI ha presentado Sites, una nueva función para Codex, su IA dedicada a la ingeniería de software. Actualmente en fase de prueba, solo está disponible para los suscriptores de pago de los planes Bu











