歷經四個月的重新設計,GPT Image2 的 13 人核心團隊正式揭曉
最近,GPT Image2 憑藉其驚人逼真的圖像生成能力,在社交媒體上掀起了一股熱潮。隨著該專案人氣飆升,幕後那支低調的小團隊也走上了聚光燈下。 據透露,核心團隊僅由 13 人組成,他們竟在短短四個月內徹底重寫了底層架構。雖然研究負責人陳博元尚未透露具體技術細節,但他將這個新模型形容為「視覺領域的 GPT」,預示著通用能力方面將有重大飛躍。
團隊的核心人物陳博源 擁有非凡的個人經歷。攻讀博士期間,他開創了「擴散驅動(Diffusion Forcing)」等創新方法,並為後續被 Google Gemini 2.0 採用的指令微調技術做出貢獻。有趣的是,他最初參加高中科學營時甚至還不懂 Python。 轉戰 OpenAI 後,他不僅主導了 GPT 圖像模型的所有訓練工作,更是 Sora 影片生成團隊的核心成員。在一次演示中,他透過生成中、韓、孟加拉三種語言文字渲染完美的海報,突顯了該模型在語言理解方面的先進能力。

除了文字渲染能力外,GPT Image2 在理解世界知識及遵循複雜指令方面也達到了新的高度。這個由中國科學技術大學王建峰博士領導的模組,解決了人工智慧圖像生成中一個長期存在的問題——例如舊版模型總是預設將時鐘畫成 10:10。新模型能夠準確解讀任何指定的時間以及複雜的空間佈局。 王建峰博士指出,該模型正有效縮短使用者創意構想與最終生成結果之間的差距。
在生產力方面,浙江大學竹園學院的楊宇光展示了該工具能將冗長的研究論文即時轉換為高精度的 PowerPoint 簡報與資訊圖表。此能力源自團隊將多模態理解、專家混合(MoE)架構與長上下文引導技術深度整合的成果。
從最初的 DALL-E 到今日的GPT Image2
相關文章
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重
相關專題推薦
評論 (0)
0/500
最近
團隊的核心

除了文字渲染能力外
在生產力方面,浙江大學竹園學院的楊宇光展示了該工具能將冗長的研究論文即時轉換為高精度的 PowerPoint 簡報與資訊圖表。此能力源自團隊將多模態理解、專家混合(MoE)架構與長上下文引導技術深度整合的成果。
從最初的 DALL-E 到今日的
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
奔騰4的復興:這款已有20年曆史的CPU能夠執行Meta Llama 3大型模型
最近,YouTube技術頻道Fully Buffered進行了一項令人印象深刻且極具挑戰性的實驗:他們成功地在2006年推出的Pentium 4 641處理器上執行了Meta最新的Llama 3.2 3B大型模型。這項測試迫使現代人工智慧技術與二十年前的硬體裝置進行了碰撞,不僅揭示了大語言模型的基本相容性限制,還引發了眾多觀眾的思考:在人工智慧時代,摩爾定律是如何以這種不同尋常的方式實現跨代際應用的。硬體考古學:將2006年的元件推向極限為了完成這項測試,Fully Buffered團隊重





首頁






