ChatGPT 的 Images 2.0 模型在文字生成方面表現出色
就在幾年前,要區分人手繪製的圖片與 AI 生成的圖片還相對容易。當時,若請圖像模型製作一份墨西哥餐廳的菜單,往往會得到諸如「enchuita」、「churiros」、「burrto」或「margartas」這類古怪的虛構菜餚。
如今,當我向全新的 ChatGPT Images 2.0 模型請求一份墨西哥菜單時,它生成的內容足以立即用於真實餐廳,顧客幾乎無法察覺任何異樣。(雖然一份 13.50 美元的生魚片,可能會讓人對魚的品質產生一些疑問。)

圖片來源:ChatGPT Images 2.0
作為對比,這是我兩年前從 DALL-E 3 獲得的結果。(當時 ChatGPT 還沒有生成圖像的能力):

圖片來源:Microsoft Designer (DALL-E 3)
從歷史來看,AI 圖像生成器在拼寫方面一直面臨重大困難。這主要是因為它們通常依賴擴散模型,該模型會從隨機噪聲中重建圖像。
「擴散模型……是在重構給定的輸入,」Lesan AI 創辦人兼執行長 Asmelash Teka Hadgu 於 2024 年向 TechCrunch 解釋道。「我們可以將圖像上的文字視為極其微小的組成部分,因此圖像生成器會優先學習佔據更多像素的視覺模式。」
此後,研究人員開始探索其他影像生成方法,例如自迴歸模型。這些模型會逐步預測影像應呈現的樣貌,運作方式更類似於大型語言模型(LLMs)。
遺憾的是,OpenAI在本週的記者會上,拒絕回答關於驅動 ChatGPT Images 2.0 的具體模型架構相關問題。
不過,該公司確實澄清,新模型具備「思考能力」。這使它能夠搜尋網路、根據單一提示生成多張圖片,並檢視自身的輸出結果。這些功能讓 Images 2.0 能夠製作多維度的行銷素材,以及多格漫畫。
OpenAI 亦表示,Images 2.0 在渲染非拉丁文字方面表現更佳,包括日文、韓文、印地文及孟加拉文。該模型的知識庫更新至 2025 年 12 月,這可能影響其生成與近期事件相關圖像時的準確性。
OpenAI 在新聞稿中指出:「Images 2.0 在圖像創作方面展現了前所未有的細節與精準度。它不僅能構思更複雜的場景,更能有效實現該構想。它能精確遵循指示、保留指定細節,並渲染其他圖像模型常難以處理的細微元素——例如小字體、圖示、UI 元件、複雜構圖及細膩的風格差異——且解析度最高可達 2K。」
這些進階功能意味著生成圖像的過程,並不如向 ChatGPT 提問文字問題那般即時。然而,即使要創建像多格漫畫這類複雜內容,也僅需幾分鐘。
自週二起,所有 ChatGPT 和 Codex 用戶均可使用 Images 2.0,付費訂閱者則能生成更進階的輸出內容。該公司亦將推出 gpt-image-2 API,其定價將依據所需的輸出品質與解析度而定。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (0)
0/500
就在幾年前,要區分人手繪製的圖片與 AI 生成的圖片還相對容易。當時,若請圖像模型製作一份墨西哥餐廳的菜單,往往會得到諸如「enchuita」、「churiros」、「burrto」或「margartas」這類古怪的虛構菜餚。
如今,當我向全新的 ChatGPT Images 2.0 模型請求一份墨西哥菜單時,它生成的內容足以立即用於真實餐廳,顧客幾乎無法察覺任何異樣。(雖然一份 13.50 美元的生魚片,可能會讓人對魚的品質產生一些疑問。)

圖片來源:ChatGPT Images 2.0
作為對比,這是我兩年前從 DALL-E 3 獲得的結果。(當時 ChatGPT 還沒有生成圖像的能力):

圖片來源:Microsoft Designer (DALL-E 3)
從歷史來看,AI 圖像生成器在拼寫方面一直面臨重大困難。這主要是因為它們通常依賴擴散模型,該模型會從隨機噪聲中重建圖像。
「擴散模型……是在重構給定的輸入,」Lesan AI 創辦人兼執行長 Asmelash Teka Hadgu 於 2024 年向 TechCrunch 解釋道。「我們可以將圖像上的文字視為極其微小的組成部分,因此圖像生成器會優先學習佔據更多像素的視覺模式。」
此後,研究人員開始探索其他影像生成方法,例如自迴歸模型。這些模型會逐步預測影像應呈現的樣貌,運作方式更類似於大型語言模型(LLMs)。
遺憾的是,OpenAI在本週的記者會上,拒絕回答關於驅動 ChatGPT Images 2.0 的具體模型架構相關問題。
不過,該公司確實澄清,新模型具備「思考能力」。這使它能夠搜尋網路、根據單一提示生成多張圖片,並檢視自身的輸出結果。這些功能讓 Images 2.0 能夠製作多維度的行銷素材,以及多格漫畫。
OpenAI 亦表示,Images 2.0 在渲染非拉丁文字方面表現更佳,包括日文、韓文、印地文及孟加拉文。該模型的知識庫更新至 2025 年 12 月,這可能影響其生成與近期事件相關圖像時的準確性。
OpenAI 在新聞稿中指出:「Images 2.0 在圖像創作方面展現了前所未有的細節與精準度。它不僅能構思更複雜的場景,更能有效實現該構想。它能精確遵循指示、保留指定細節,並渲染其他圖像模型常難以處理的細微元素——例如小字體、圖示、UI 元件、複雜構圖及細膩的風格差異——且解析度最高可達 2K。」
這些進階功能意味著生成圖像的過程,並不如向 ChatGPT 提問文字問題那般即時。然而,即使要創建像多格漫畫這類複雜內容,也僅需幾分鐘。
自週二起,所有 ChatGPT 和 Codex 用戶均可使用 Images 2.0,付費訂閱者則能生成更進階的輸出內容。該公司亦將推出 gpt-image-2 API,其定價將依據所需的輸出品質與解析度而定。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研





首頁






