经过4个月的重新设计,GPT Image2的13人核心团队正式揭晓
最近,GPT Image2 凭借其逼真得令人惊叹的图像生成能力在社交媒体上引发了轰动。随着该项目人气飙升,其背后那个低调的小团队也走入了公众视野。 据透露,核心团队仅由13人组成,他们仅用四个月时间就彻底重写了底层架构。虽然研究负责人陈博远尚未披露具体的技术细节,但他将这一新模型描述为“视觉领域的GPT”,这标志着通用能力方面取得了重大飞跃。
团队核心人物陈博远 有着一段非凡的个人经历。攻读博士期间,他开创了“扩散强制(Diffusion Forcing)”等创新方法,并为指令微调技术做出了贡献,这些技术后来被谷歌的Gemini 2.0所采用。有趣的是,他最初参加高中科学夏令营时甚至还不懂Python。 加入OpenAI后,他不仅主导了GPT图像模型的全部训练工作,还担任Sora视频生成团队的核心成员。在一次演示中,他通过生成中文、韩文和孟加拉文排版完美的海报,展示了该模型先进的语言理解能力。

除了文本渲染,GPT Image2 在理解世界知识和遵循复杂指令方面也达到了新的高度。该模块由中国科学技术大学的王建峰博士领导,致力于解决人工智能图像生成中一个长期存在的问题——例如旧模型总是默认将时钟画成10:10。新模型能够准确解读任何指定的时间以及复杂的空间布局。 王建峰博士指出,该模型正在有效缩小用户创意构想与最终生成结果之间的差距。
在生产力方面,浙江大学竹园学院的杨玉光展示了该工具能够将冗长的研究论文即时转换为高精度的PowerPoint演示文稿和信息图表。这一能力源于团队对多模态理解、专家混合(MoE)架构以及长上下文引导技术的深度融合。
从最初的DALL-E到如今的GPT Image2
相关文章
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
北京工业大学就包括人工智能模型上下文协议在内的121项行业标准征求公众意见
中国工业和信息化部正式发布通知,征求公众对121项行业标准化的意见,其中包括“人工智能安全治理模型上下文协议的应用安全要求”。这一公告标志着中国在建立人工智能基础标准和安全监管框架方面取得了重要进展。此次公开征求意见的重点是针对该模型上下文协议的应用安全问题,旨在通过标准化的技术规范来解决多模态交互、长文本处理以及跨平台调用过程中出现的协议兼容性和数据安全方面的问题。
相关专题推荐
评论 (0)
0/500
最近,
团队核心人物

除了文本渲染
在生产力方面,浙江大学竹园学院的杨玉光展示了该工具能够将冗长的研究论文即时转换为高精度的PowerPoint演示文稿和信息图表。这一能力源于团队对多模态理解、专家混合(MoE)架构以及长上下文引导技术的深度融合。
从最初的DALL-E到如今的
奔腾4的复兴:这款已有20年历史的CPU能够运行Meta Llama 3大型模型
最近,YouTube技术频道Fully Buffered进行了一项令人印象深刻且极具挑战性的实验:他们成功地在2006年推出的Pentium 4 641处理器上运行了Meta最新的Llama 3.2 3B大型模型。这项测试迫使现代人工智能技术与二十年前的硬件设备进行了碰撞,不仅揭示了大语言模型的基本兼容性限制,还引发了众多观众的思考:在人工智能时代,摩尔定律是如何以这种不同寻常的方式实现跨代际应用的。硬件考古学:将2006年的组件推向极限为了完成这项测试,Fully Buffered团队重
杭州市上城区推出了浙江省首个基于AIGC技术的视听产业“黄金十项措施”,并设立了50亿规模的产业发展基金。
16日,AIGC视听产业创新生态大会在杭州上城区举行。会议期间,该省推出了针对AIGC视听产业的的首项专项政策——“黄金十项措施”。这项政策涵盖了技术创新、成本降低、内容质量提升、人才培养以及全球发展等多个方面。这些政策提供了强有力的激励措施。对于技术创新领域,凡是专注于AIGC工具、AI虚拟拍摄和AI交互叙事系统的研究开发项目,均可获得最高300万元的补贴。而对于高质量的内容创作,那些在年内通过知名平台发布的AIGC视听作品,每部可获得最高30万元的奖励,每家企业的年度奖励总额上限为100万
北京工业大学就包括人工智能模型上下文协议在内的121项行业标准征求公众意见
中国工业和信息化部正式发布通知,征求公众对121项行业标准化的意见,其中包括“人工智能安全治理模型上下文协议的应用安全要求”。这一公告标志着中国在建立人工智能基础标准和安全监管框架方面取得了重要进展。此次公开征求意见的重点是针对该模型上下文协议的应用安全问题,旨在通过标准化的技术规范来解决多模态交互、长文本处理以及跨平台调用过程中出现的协议兼容性和数据安全方面的问题。





首页






