选项
首页
新闻
OpenAI启动GPT-4.5'Orion':迄今为止其最大的AI模型

OpenAI启动GPT-4.5'Orion':迄今为止其最大的AI模型

2025-04-10
277

PT下午2:40更新:GPT-4.5发布后数小时,Openai对AI模型的白皮书进行了安静的编辑。他们删除了一条线,说“ GPT-4.5不是前沿AI模型”。您仍然可以在这里访问原始的白皮书。以下是原始文章。

周四,Openai撤回了GPT-4.5上的窗帘,这是备受期待的AI模型,该模型由代码名称Orion。来自OpenAI的最新庞然大物已经接受了空前数量的计算能力和数据的培训,使其与前身区分开来。

尽管尺度令人印象深刻,但Openai的白皮书最初表示,他们并不认为GPT-4.5是边境模型。但是,此声明已被删除,使我们想知道该模型的真正潜力。

从周四开始,作为研究预览的一部分,OpenAI的Premium $ 200售价Chatgpt Pro的订阅者将首先品尝GPT-4.5。 OpenAI发言人说,OpenAI的付费API层的开发人员今天可以开始使用GPT-4.5,而拥有Chatgpt Plus和ChatGpt团队订阅的开发人员应该期望下周某个时候访问。

科技界一直在嗡嗡作响,将其视为是否仍在含水的传统AI培训方法的测试。 GPT-4.5遵循与其前任相同的剧本,依靠无监督学习阶段的计算能力和数据的巨大增加,称为预培训。

过去,扩展导致跨越数学,写作和编码等各个领域的性能突飞猛进。 Openai声称GPT-4.5的规模已赋予了“更深的世界知识”和“更高的情商”。然而,有一些暗示,从扩展到扩展的回报可能会减少。在几个AI基准测试中,GPT-4.5落后于DeepSeek,Anthropic甚至Openai本身等公司的新推理模型。

此外,运行GPT-4.5的价格高昂。 Openai承认它是如此昂贵,以至于他们考虑是否长期通过其API来保持它。开发人员将为每百万个输入代币支付75美元,每百万个产量令牌为150美元,与价格更便宜的GPT-4O形成鲜明对比,GPT-4O的价格仅为每百万美元的投入令牌2550美元和每百万美元的产出代币。

Openai在博客文章中分享道:“我们将分享GPT -4.5作为研究预览,以更好地了解其优势和局限性。” “我们仍在探索它的全部潜力,并很高兴看到人们将如何以意想不到的方式使用它。”

混合性能

Openai很明显,GPT-4.5并不是要取代驱动大部分API和CHATGPT的主力模型GPT-4O。虽然GPT-4.5可以处理文件和图像上传并使用Chatgpt的Canvas工具,但目前不支持Chatgpt现实的双向语音模式之类的功能。

从明亮的一面来看,GPT-4.5在OpenAI的SimpleQA基准测试中胜过GPT-4O和许多其他模型,该基准测试了AI模型在直接,事实问题上。 Openai还声称,GPT-4.5的幻觉量低于大多数型号,从理论上讲,这应该使制造信息的可能性降低。

有趣的是,OpenAI并未在SimpleQA结果中包括其表现最佳的推理模型之一。一位OpenAI发言人告诉TechCrunch,他们尚未公开报告深入研究在此基准测试中的表现,并且不认为这是相关的比较。但是,困惑的深度研究模型与OpenAI对其他基准测试的深入研究相似,实际上在这种事实准确性测试的测试中远远超出了GPT-4.5。

SimpleQA基准标记:图像学分:OpenAi
在SWE Bench验证的基准的一部分编码问题中,GPT-4.5的性能类似于GPT-4O和O3-Mini,但距离OpenAI的深入研究和众多的Claude 3.7十四行诗也没有。在另一项编码测试中,OpenAI的SWE-Lancer基准测量了AI模型开发完整软件功能的能力,GPT-4.5的表现均优于GPT-4O和O3-Mini,但并未超过深入的研究。

OpenAI的SWE Bench验证的基准测试。图片信用:OpenAI
Openai的Swe-Lancer钻石基准。图像学分:OpenAI
尽管GPT-4.5与O3-Mini,DeepSeek的R1和Claude 3.7十四行诗(如AIME和GPQA)等领先的AI推理模型的性能完全不符,但它确实与在同一测试中领先的非常规模型相抵触。这表明GPT-4.5在与数学和科学相关的任务中表现出色。

Openai还拥有GPT-4.5在质量上优于其他模型,而在基准测试的领域(例如了解人类意图)。他们声称GPT-4.5以更温暖,更自然的语气做出反应,并且在写作和设计等创意任务上表现良好。

在非正式测试中,OpenAI询问了GPT-4.5,以及其他两种型号GPT-4O和O3-Mini,以SVG格式创建独角兽。只有GPT-4.5才能产生类似于独角兽的东西。

左:GPT-4.5,中间:GPT-4O,右:O3-Mini。图像学分:OpenAi
在另一项测试中,OpenAI提示GPT-4.5和其他模型对提示做出回应:“在未能完成测试后,我经历了艰难的时期。”虽然GPT-4O和O3-Mini提供了有用的信息,但GPT-4.5的反应在社会上是最合适的。

Openai在他们的博客文章中写道:“我们期待通过此版本获得更完整的GPT-4.5功能图片,因为我们认识到学术基准并不总是反映现实世界中的有用性。”

GPT-4.5的情绪智力在行动中。图片学分:OpenAI
扩展法律挑战

Openai声称GPT -4.5是“在无监督学习中可能的边界”。然而,它的局限性似乎支持了专家对所谓的预训练规律可能达到限制的越来越多的怀疑。

Openai联合创始人兼前首席科学家Ilya Sutskever在12月表示,“我们已经达到了峰值数据”,并且“众所周知,这将毫无疑问地结束”。他的评论回应了11月AI投资者,创始人和研究人员的担忧。

为了应对这些挑战,该行业(包括OpenAI)转向了推理模型,这些模型需要更长的时间来执行任务,但提供了更一致的结果。通过允许推理模型更多的时间和计算能力通过问题“思考”,AI实验室认为它们可以显着增强模型功能。

Openai计划最终将其GPT系列与其“ O”推理系列合并,从今年晚些时候GPT-5开始。尽管培训成本,延迟和未满足的内部期望,GPT-4.5可能并没有单独主张AI基准冠冕。但是Openai可能将其视为迈向更强大的事情的关键一步。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
写作 最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字
最佳免费且无法被识别的AI写作工具:将生硬的草稿转化为自然流畅、宛如人类撰写的文字

在 XIX.AI 探索 2026 年最佳免费且难以被察觉的 AI 写作工具。我们精心筛选的顶级推荐清单,助您将生硬的草稿转化为自然流畅、宛如人类撰写的文字。通过实际测试和每周更新的排行榜,对比免费与付费选项。立即解锁您的 AI 写作优势。

10 个工具
xix.ai
图像编辑 用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计
用于短剧故事板的AI艺术生成工具:幻想与都市浪漫题材的角色设计

2026最新推荐:探索最适合用于短剧故事板制作的AI艺术生成工具。我们精心挑选了众多顶级工具,帮助您创作出引人入胜的幻想角色和都市浪漫角色。您可以对比免费与付费选项,查看实际测试结果,从而找到最适合自己的创意工具。XIX.AI还会每周更新排名并提供专家分析,让您立即开始将故事可视化呈现吧!

10 个工具
xix.ai
写作 最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告
最适合广播和播客使用的AI脚本编写工具:帮助您创作引人入胜的音频广告

在XIX.AI上,发现2026年最适合用于广播和播客制作的AI脚本工具。我们精心挑选的这些高评分工具能够提供强大的功能,帮助您快速制作出引人入胜的音频广告。通过实际测试和每周更新的排名,您可以了解免费选项与付费选项之间的差异。今天就释放您的创造力吧!

10 个工具
xix.ai
商业 最佳 AI 合同审查软件:即时发现法律漏洞与合规风险
最佳 AI 合同审查软件:即时发现法律漏洞与合规风险

在 XIX.AI 上探索 2026 年最佳 AI 合同审查软件。我们精心筛选的顶级榜单汇集了功能强大的工具,能够即时发现法律漏洞和合规风险。通过实际测试和每周更新的排名,对比免费与付费选项。找到能彻底改变游戏规则的解决方案,实现安全、高效的合同分析。立即探索这本权威指南。

10 个工具
xix.ai
动画创作 专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像
专为东华设计的AI动漫生成器:可用于创建网络小说角色及漫画头像

探索2026年最适合制作中文动画的人工智能工具。我们精心挑选的顶级列表中包含了各种强大的工具,能够帮助你创建出令人惊叹的网络小说角色和漫画头像。通过实际测试来对比免费选项和付费选项,找到最适合你的创作工具,今天就在XIX.AI上将你的故事变为现实吧。

10 个工具
xix.ai
漫画创作 漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩
漫画领域顶尖的AI自动上色工具:零一致性错误地应用平涂色彩

立即访问 XIX.AI,探索 2026 年最优秀的漫画 AI 自动上色工具。我们精心筛选的清单汇集了广受好评、颠覆行业的解决方案,这些工具能以零一致性错误的方式应用平涂色彩,从而大幅提升您的工作效率。通过免费版与付费版的对比分析、实际测试以及每周更新的排行榜,找到最适合您的工具。立即开启您的 AI 优势。

10 个工具
xix.ai
评论 (62)
0/500
JonathanMiller
JonathanMiller 2025-10-21 20:30:48

Warum ändern die heimlich die Beschreibung? 🤔 Das klingt nach Marketing-Spielchen. GPT-4.5 ist bestimmt stark, aber solche Änderungen machen mich misstrauisch. Wird da etwa die Leistung übertrieben dargestellt?

GeorgeCarter
GeorgeCarter 2025-08-22 17:01:17

Wow, GPT-4.5 Orion sounds massive! But that sneaky white paper edit? Shady move, OpenAI. Makes me wonder what else they’re tweaking behind the scenes. 🤔

BruceWilson
BruceWilson 2025-08-19 11:01:00

Wow, GPT-4.5 Orion sounds like a beast! But that sneaky edit to the white paper? Shady move, OpenAI. Makes me wonder what else they're hiding. Still, I'm hyped to see what this model can do! 😎

BruceBrown
BruceBrown 2025-08-12 02:01:05

Wow, GPT-4.5 Orion sounds like a beast! But that sneaky white paper edit raises some eyebrows—why hide that it’s not a frontier model? 🤔 Makes me wonder what OpenAI’s cooking behind the scenes!

JeffreyRamirez
JeffreyRamirez 2025-08-07 03:01:00

Wow, GPT-4.5 Orion sounds massive! But that sneaky white paper edit? Shady move, OpenAI. Makes me wonder what else they’re hiding. 🤔 Still, can’t wait to see what this beast can do!

RalphPerez
RalphPerez 2025-08-05 23:01:00

Wow, GPT-4.5 Orion sounds like a beast! But that sneaky white paper edit raises some eyebrows 🤔. Why hide that it’s not a frontier model? Smells like they’re dodging some big questions about what this thing can really do.

OR