ChatGPT的Images 2.0模型在文本生成方面表现出色

首页

新闻

2026-05-17

BenWalker

# ChatGPT # openai # image generation

就在几年前，区分人工制作的图像和AI生成的图像还相对容易。那时，如果让图像模型生成一份墨西哥餐厅的菜单，结果往往是些怪诞的、虚构的菜品，比如“enchuita”、“churiros”、“burrto”或“margartas”。

如今，当我向全新的ChatGPT Images 2.0模型请求一份墨西哥菜单时，它生成的内容完全可以直接用于真实餐厅，顾客恐怕也难以察觉任何破绽。（尽管一份售价13.50美元的酸橘汁腌鱼，或许仍会让人对鱼的品质产生疑问。）

图片来源：ChatGPT Images 2.0

作为对比，这是两年前我从 DALL-E 3 获得的结果。（当时 ChatGPT 还未具备图像生成能力）：

图片来源：Microsoft Designer (DALL-E 3)

从历史上看，AI图像生成器在拼写方面一直存在显著困难。这主要是因为它们通常依赖扩散模型，该模型通过随机噪声来重建图像。

“扩散模型……是在重构给定的输入，”Lesan AI创始人兼首席执行官Asmelash Teka Hadgu在2024年向TechCrunch解释道，“我们可以将图像上的文字视为一个非常微小的组成部分，因此图像生成器会优先学习占据更多像素的视觉模式。”

此后，研究人员开始探索其他图像生成方法，例如自回归模型。这些模型通过逐步预测图像应呈现的样貌，其运作方式更接近大型语言模型（LLMs）。

遗憾的是，OpenAI在本周的新闻发布会上拒绝回答关于ChatGPT Images 2.0具体模型架构的问题。

不过，该公司明确表示，新模型具备“思考能力”。这使其能够搜索网络、根据单一提示生成多张图片，并审查自身生成的内容。这些功能使Images 2.0能够制作多维度的营销材料，以及多格漫画。

OpenAI还表示，Images 2.0在渲染非拉丁文字方面表现更佳，包括日语、韩语、印地语和孟加拉语。该模型的知识库更新截止至2025年12月，这可能会影响其生成与近期事件相关图像时的准确性。

OpenAI在新闻稿中指出：“Images 2.0在图像创作方面实现了前所未有的细节表现力和准确性。它不仅能构思更复杂的场景，还能有效实现这些构想。它能精准遵循指令，保留指定细节，并渲染出其他图像模型常难以处理的精细元素——例如小字、图标、UI组件、复杂构图以及细微的风格差异——且分辨率最高可达2K。”

这些先进功能意味着图像生成并非像向 ChatGPT 提问那样即时。不过，生成诸如多格漫画等复杂内容，仍只需几分钟。

从本周二起，所有 ChatGPT 和 Codex 用户均可使用 Images 2.0，付费订阅用户可生成更高级的输出内容。该公司还将发布 gpt-image-2 API，其定价将根据所需的输出质量和分辨率而定。

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬，OpenAI（当时还是一家小型非营利研究实验室）的核心成员召开会议，商讨如何成立一家营利性实体，以实现技术的商业化，并筹集实现通用人工智能（AGI）所需的资金。埃隆·马斯克要求全面掌控公司，并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示，他认为这是马斯克试图收买人心，当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open

相关专题推荐

文字转语音