El modelo Images 2.0 de ChatGPT destaca en la generación de texto
Hace solo un par de años, distinguir las imágenes creadas por humanos de las generadas por IA era relativamente sencillo. Por aquel entonces, pedirle a un modelo de imágenes que creara un menú para un restaurante mexicano solía dar lugar a platos extraños e inventados como «enchuita», «churiros», «burrto» o «margartas».
Hoy en día, cuando le pido un menú de comida mexicana al nuevo modelo ChatGPT Images 2.0, este genera algo que podría utilizarse en un restaurante real de inmediato, sin que los clientes notaran nada extraño. (Aunque un ceviche de 13,50 dólares podría seguir suscitando algunas dudas sobre la calidad del pescado).

Créditos de las imágenes: ChatGPT Images 2.0
A modo de comparación, aquí está el resultado que obtuve de DALL-E 3 hace dos años. (En aquel momento, ChatGPT no tenía capacidad para generar imágenes):

Créditos de la imagen: Microsoft Designer (DALL-E 3)
Históricamente, los generadores de imágenes con IA han tenido grandes dificultades con la ortografía. Esto se debe en gran parte a que solían basarse en modelos de difusión, que reconstruyen imágenes a partir de ruido aleatorio.
«Los modelos de difusión [...] reconstruyen una entrada dada», explicó Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI, a TechCrunch en 2024. «Podemos considerar que el texto de una imagen es un componente muy secundario, por lo que el generador de imágenes da prioridad al aprendizaje de los patrones visuales que ocupan más píxeles».
Desde entonces, los investigadores han estudiado otros enfoques para la generación de imágenes, como los modelos autorregresivos. Estos modelos predicen cómo debería ser una imagen paso a paso, funcionando de manera más similar a los grandes modelos de lenguaje (LLM).
Lamentablemente, OpenAI se negó a responder a una pregunta durante una rueda de prensa celebrada esta semana sobre la arquitectura específica del modelo que impulsa ChatGPT Images 2.0.
La empresa sí aclaró, sin embargo, que el nuevo modelo posee «capacidades de razonamiento». Esto le permite buscar en la web, crear múltiples imágenes a partir de una sola indicación y revisar sus propios resultados. Estas características permiten a Images 2.0 producir materiales de marketing en diversas dimensiones, así como tiras cómicas de varios paneles.
OpenAI también afirma que Images 2.0 tiene una mejor comprensión de la representación de escrituras no latinas, incluyendo el japonés, el coreano, el hindi y el bengalí. El conocimiento del modelo está actualizado hasta diciembre de 2025, lo que puede afectar a su precisión a la hora de generar imágenes relacionadas con acontecimientos muy recientes.
«Images 2.0 ofrece un nivel de detalle y precisión sin precedentes en la creación de imágenes. No solo puede conceptualizar escenas más complejas, sino también ejecutar esa visión de forma eficaz. Sigue las instrucciones con precisión, mantiene los detalles solicitados y reproduce elementos de gran detalle que a menudo suponen un reto para otros modelos de imagen —como texto pequeño, iconos, componentes de interfaz de usuario, composiciones intrincadas y matices estilísticos sutiles— todo ello con resoluciones de hasta 2K», señaló OpenAI en un comunicado de prensa.
Estas capacidades avanzadas implican que la generación de imágenes no es tan instantánea como hacer una pregunta de texto a ChatGPT. Sin embargo, crear algo complejo, como un cómic de varios paneles, sigue llevando solo unos minutos.
Todos los usuarios de ChatGPT y Codex tendrán acceso a Images 2.0 a partir del martes, y los suscriptores de pago podrán generar resultados más avanzados. La empresa también lanzará la API gpt-image-2, con precios basados en la calidad y la resolución deseadas.
Artículo relacionado
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati
Recomendaciones de temas especiales relacionados
comentario (0)
0/500
Hace solo un par de años, distinguir las imágenes creadas por humanos de las generadas por IA era relativamente sencillo. Por aquel entonces, pedirle a un modelo de imágenes que creara un menú para un restaurante mexicano solía dar lugar a platos extraños e inventados como «enchuita», «churiros», «burrto» o «margartas».
Hoy en día, cuando le pido un menú de comida mexicana al nuevo modelo ChatGPT Images 2.0, este genera algo que podría utilizarse en un restaurante real de inmediato, sin que los clientes notaran nada extraño. (Aunque un ceviche de 13,50 dólares podría seguir suscitando algunas dudas sobre la calidad del pescado).

Créditos de las imágenes: ChatGPT Images 2.0
A modo de comparación, aquí está el resultado que obtuve de DALL-E 3 hace dos años. (En aquel momento, ChatGPT no tenía capacidad para generar imágenes):

Créditos de la imagen: Microsoft Designer (DALL-E 3)
Históricamente, los generadores de imágenes con IA han tenido grandes dificultades con la ortografía. Esto se debe en gran parte a que solían basarse en modelos de difusión, que reconstruyen imágenes a partir de ruido aleatorio.
«Los modelos de difusión [...] reconstruyen una entrada dada», explicó Asmelash Teka Hadgu, fundador y director ejecutivo de Lesan AI, a TechCrunch en 2024. «Podemos considerar que el texto de una imagen es un componente muy secundario, por lo que el generador de imágenes da prioridad al aprendizaje de los patrones visuales que ocupan más píxeles».
Desde entonces, los investigadores han estudiado otros enfoques para la generación de imágenes, como los modelos autorregresivos. Estos modelos predicen cómo debería ser una imagen paso a paso, funcionando de manera más similar a los grandes modelos de lenguaje (LLM).
Lamentablemente, OpenAI se negó a responder a una pregunta durante una rueda de prensa celebrada esta semana sobre la arquitectura específica del modelo que impulsa ChatGPT Images 2.0.
La empresa sí aclaró, sin embargo, que el nuevo modelo posee «capacidades de razonamiento». Esto le permite buscar en la web, crear múltiples imágenes a partir de una sola indicación y revisar sus propios resultados. Estas características permiten a Images 2.0 producir materiales de marketing en diversas dimensiones, así como tiras cómicas de varios paneles.
OpenAI también afirma que Images 2.0 tiene una mejor comprensión de la representación de escrituras no latinas, incluyendo el japonés, el coreano, el hindi y el bengalí. El conocimiento del modelo está actualizado hasta diciembre de 2025, lo que puede afectar a su precisión a la hora de generar imágenes relacionadas con acontecimientos muy recientes.
«Images 2.0 ofrece un nivel de detalle y precisión sin precedentes en la creación de imágenes. No solo puede conceptualizar escenas más complejas, sino también ejecutar esa visión de forma eficaz. Sigue las instrucciones con precisión, mantiene los detalles solicitados y reproduce elementos de gran detalle que a menudo suponen un reto para otros modelos de imagen —como texto pequeño, iconos, componentes de interfaz de usuario, composiciones intrincadas y matices estilísticos sutiles— todo ello con resoluciones de hasta 2K», señaló OpenAI en un comunicado de prensa.
Estas capacidades avanzadas implican que la generación de imágenes no es tan instantánea como hacer una pregunta de texto a ChatGPT. Sin embargo, crear algo complejo, como un cómic de varios paneles, sigue llevando solo unos minutos.
Todos los usuarios de ChatGPT y Codex tendrán acceso a Images 2.0 a partir del martes, y los suscriptores de pago podrán generar resultados más avanzados. La empresa también lanzará la API gpt-image-2, con precios basados en la calidad y la resolución deseadas.
Satya Nadella está listo para aprovechar el nuevo acuerdo con OpenAI
El miércoles, un analista de Wall Street preguntó directamente al CEO de Microsoft, Satya Nadella, cómo la revisada asociación con OpenAI afectaría las finanzas de la empresa.Nadella describió el nuevo acuerdo como una victoria para todos. “Estamos
OpenAI esboza la economía de la IA con fondos de riqueza pública, impuestos sobre los robots y la semana laboral de cuatro días
Mientras los gobiernos se esfuerzan por gestionar el impacto económico de las máquinas superinteligentes, OpenAI ha publicado una serie de propuestas políticas en las que se esboza cómo podrían reconf
Greg Brockman desvela cómo Elon Musk abandonó OpenAI
A finales de agosto de 2017, las figuras clave de OpenAI —por entonces un pequeño laboratorio de investigación sin ánimo de lucro— se reunieron para debatir cómo crearían una entidad con fines lucrati





Hogar






