ChatGPT的Images 2.0模型在文本生成方面表现出色
就在几年前,区分人工制作的图像和AI生成的图像还相对容易。那时,如果让图像模型生成一份墨西哥餐厅的菜单,结果往往是些怪诞的、虚构的菜品,比如“enchuita”、“churiros”、“burrto”或“margartas”。
如今,当我向全新的ChatGPT Images 2.0模型请求一份墨西哥菜单时,它生成的内容完全可以直接用于真实餐厅,顾客恐怕也难以察觉任何破绽。(尽管一份售价13.50美元的酸橘汁腌鱼,或许仍会让人对鱼的品质产生疑问。)

图片来源:ChatGPT Images 2.0
作为对比,这是两年前我从 DALL-E 3 获得的结果。(当时 ChatGPT 还未具备图像生成能力):

图片来源:Microsoft Designer (DALL-E 3)
从历史上看,AI图像生成器在拼写方面一直存在显著困难。这主要是因为它们通常依赖扩散模型,该模型通过随机噪声来重建图像。
“扩散模型……是在重构给定的输入,”Lesan AI创始人兼首席执行官Asmelash Teka Hadgu在2024年向TechCrunch解释道,“我们可以将图像上的文字视为一个非常微小的组成部分,因此图像生成器会优先学习占据更多像素的视觉模式。”
此后,研究人员开始探索其他图像生成方法,例如自回归模型。这些模型通过逐步预测图像应呈现的样貌,其运作方式更接近大型语言模型(LLMs)。
遗憾的是,OpenAI在本周的新闻发布会上拒绝回答关于ChatGPT Images 2.0具体模型架构的问题。
不过,该公司明确表示,新模型具备“思考能力”。这使其能够搜索网络、根据单一提示生成多张图片,并审查自身生成的内容。这些功能使Images 2.0能够制作多维度的营销材料,以及多格漫画。
OpenAI还表示,Images 2.0在渲染非拉丁文字方面表现更佳,包括日语、韩语、印地语和孟加拉语。该模型的知识库更新截止至2025年12月,这可能会影响其生成与近期事件相关图像时的准确性。
OpenAI在新闻稿中指出:“Images 2.0在图像创作方面实现了前所未有的细节表现力和准确性。它不仅能构思更复杂的场景,还能有效实现这些构想。它能精准遵循指令,保留指定细节,并渲染出其他图像模型常难以处理的精细元素——例如小字、图标、UI组件、复杂构图以及细微的风格差异——且分辨率最高可达2K。”
这些先进功能意味着图像生成并非像向 ChatGPT 提问那样即时。不过,生成诸如多格漫画等复杂内容,仍只需几分钟。
从本周二起,所有 ChatGPT 和 Codex 用户均可使用 Images 2.0,付费订阅用户可生成更高级的输出内容。该公司还将发布 gpt-image-2 API,其定价将根据所需的输出质量和分辨率而定。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (0)
0/500
就在几年前,区分人工制作的图像和AI生成的图像还相对容易。那时,如果让图像模型生成一份墨西哥餐厅的菜单,结果往往是些怪诞的、虚构的菜品,比如“enchuita”、“churiros”、“burrto”或“margartas”。
如今,当我向全新的ChatGPT Images 2.0模型请求一份墨西哥菜单时,它生成的内容完全可以直接用于真实餐厅,顾客恐怕也难以察觉任何破绽。(尽管一份售价13.50美元的酸橘汁腌鱼,或许仍会让人对鱼的品质产生疑问。)

图片来源:ChatGPT Images 2.0
作为对比,这是两年前我从 DALL-E 3 获得的结果。(当时 ChatGPT 还未具备图像生成能力):

图片来源:Microsoft Designer (DALL-E 3)
从历史上看,AI图像生成器在拼写方面一直存在显著困难。这主要是因为它们通常依赖扩散模型,该模型通过随机噪声来重建图像。
“扩散模型……是在重构给定的输入,”Lesan AI创始人兼首席执行官Asmelash Teka Hadgu在2024年向TechCrunch解释道,“我们可以将图像上的文字视为一个非常微小的组成部分,因此图像生成器会优先学习占据更多像素的视觉模式。”
此后,研究人员开始探索其他图像生成方法,例如自回归模型。这些模型通过逐步预测图像应呈现的样貌,其运作方式更接近大型语言模型(LLMs)。
遗憾的是,OpenAI在本周的新闻发布会上拒绝回答关于ChatGPT Images 2.0具体模型架构的问题。
不过,该公司明确表示,新模型具备“思考能力”。这使其能够搜索网络、根据单一提示生成多张图片,并审查自身生成的内容。这些功能使Images 2.0能够制作多维度的营销材料,以及多格漫画。
OpenAI还表示,Images 2.0在渲染非拉丁文字方面表现更佳,包括日语、韩语、印地语和孟加拉语。该模型的知识库更新截止至2025年12月,这可能会影响其生成与近期事件相关图像时的准确性。
OpenAI在新闻稿中指出:“Images 2.0在图像创作方面实现了前所未有的细节表现力和准确性。它不仅能构思更复杂的场景,还能有效实现这些构想。它能精准遵循指令,保留指定细节,并渲染出其他图像模型常难以处理的精细元素——例如小字、图标、UI组件、复杂构图以及细微的风格差异——且分辨率最高可达2K。”
这些先进功能意味着图像生成并非像向 ChatGPT 提问那样即时。不过,生成诸如多格漫画等复杂内容,仍只需几分钟。
从本周二起,所有 ChatGPT 和 Codex 用户均可使用 Images 2.0,付费订阅用户可生成更高级的输出内容。该公司还将发布 gpt-image-2 API,其定价将根据所需的输出质量和分辨率而定。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open





首页






