选项
首页
新闻
OpenAI启动GPT-4.5'Orion':迄今为止其最大的AI模型

OpenAI启动GPT-4.5'Orion':迄今为止其最大的AI模型

2025-04-10
98

PT下午2:40更新:GPT-4.5发布后数小时,Openai对AI模型的白皮书进行了安静的编辑。他们删除了一条线,说“ GPT-4.5不是前沿AI模型”。您仍然可以在这里访问原始的白皮书。以下是原始文章。

周四,Openai撤回了GPT-4.5上的窗帘,这是备受期待的AI模型,该模型由代码名称Orion。来自OpenAI的最新庞然大物已经接受了空前数量的计算能力和数据的培训,使其与前身区分开来。

尽管尺度令人印象深刻,但Openai的白皮书最初表示,他们并不认为GPT-4.5是边境模型。但是,此声明已被删除,使我们想知道该模型的真正潜力。

从周四开始,作为研究预览的一部分,OpenAI的Premium $ 200售价Chatgpt Pro的订阅者将首先品尝GPT-4.5。 OpenAI发言人说,OpenAI的付费API层的开发人员今天可以开始使用GPT-4.5,而拥有Chatgpt Plus和ChatGpt团队订阅的开发人员应该期望下周某个时候访问。

科技界一直在嗡嗡作响,将其视为是否仍在含水的传统AI培训方法的测试。 GPT-4.5遵循与其前任相同的剧本,依靠无监督学习阶段的计算能力和数据的巨大增加,称为预培训。

过去,扩展导致跨越数学,写作和编码等各个领域的性能突飞猛进。 Openai声称GPT-4.5的规模已赋予了“更深的世界知识”和“更高的情商”。然而,有一些暗示,从扩展到扩展的回报可能会减少。在几个AI基准测试中,GPT-4.5落后于DeepSeek,Anthropic甚至Openai本身等公司的新推理模型。

此外,运行GPT-4.5的价格高昂。 Openai承认它是如此昂贵,以至于他们考虑是否长期通过其API来保持它。开发人员将为每百万个输入代币支付75美元,每百万个产量令牌为150美元,与价格更便宜的GPT-4O形成鲜明对比,GPT-4O的价格仅为每百万美元的投入令牌2550美元和每百万美元的产出代币。

Openai在博客文章中分享道:“我们将分享GPT -4.5作为研究预览,以更好地了解其优势和局限性。” “我们仍在探索它的全部潜力,并很高兴看到人们将如何以意想不到的方式使用它。”

混合性能

Openai很明显,GPT-4.5并不是要取代驱动大部分API和CHATGPT的主力模型GPT-4O。虽然GPT-4.5可以处理文件和图像上传并使用Chatgpt的Canvas工具,但目前不支持Chatgpt现实的双向语音模式之类的功能。

从明亮的一面来看,GPT-4.5在OpenAI的SimpleQA基准测试中胜过GPT-4O和许多其他模型,该基准测试了AI模型在直接,事实问题上。 Openai还声称,GPT-4.5的幻觉量低于大多数型号,从理论上讲,这应该使制造信息的可能性降低。

有趣的是,OpenAI并未在SimpleQA结果中包括其表现最佳的推理模型之一。一位OpenAI发言人告诉TechCrunch,他们尚未公开报告深入研究在此基准测试中的表现,并且不认为这是相关的比较。但是,困惑的深度研究模型与OpenAI对其他基准测试的深入研究相似,实际上在这种事实准确性测试的测试中远远超出了GPT-4.5。

SimpleQA基准标记:图像学分:OpenAi
在SWE Bench验证的基准的一部分编码问题中,GPT-4.5的性能类似于GPT-4O和O3-Mini,但距离OpenAI的深入研究和众多的Claude 3.7十四行诗也没有。在另一项编码测试中,OpenAI的SWE-Lancer基准测量了AI模型开发完整软件功能的能力,GPT-4.5的表现均优于GPT-4O和O3-Mini,但并未超过深入的研究。

OpenAI的SWE Bench验证的基准测试。图片信用:OpenAI
Openai的Swe-Lancer钻石基准。图像学分:OpenAI
尽管GPT-4.5与O3-Mini,DeepSeek的R1和Claude 3.7十四行诗(如AIME和GPQA)等领先的AI推理模型的性能完全不符,但它确实与在同一测试中领先的非常规模型相抵触。这表明GPT-4.5在与数学和科学相关的任务中表现出色。

Openai还拥有GPT-4.5在质量上优于其他模型,而在基准测试的领域(例如了解人类意图)。他们声称GPT-4.5以更温暖,更自然的语气做出反应,并且在写作和设计等创意任务上表现良好。

在非正式测试中,OpenAI询问了GPT-4.5,以及其他两种型号GPT-4O和O3-Mini,以SVG格式创建独角兽。只有GPT-4.5才能产生类似于独角兽的东西。

左:GPT-4.5,中间:GPT-4O,右:O3-Mini。图像学分:OpenAi
在另一项测试中,OpenAI提示GPT-4.5和其他模型对提示做出回应:“在未能完成测试后,我经历了艰难的时期。”虽然GPT-4O和O3-Mini提供了有用的信息,但GPT-4.5的反应在社会上是最合适的。

Openai在他们的博客文章中写道:“我们期待通过此版本获得更完整的GPT-4.5功能图片,因为我们认识到学术基准并不总是反映现实世界中的有用性。”

GPT-4.5的情绪智力在行动中。图片学分:OpenAI
扩展法律挑战

Openai声称GPT -4.5是“在无监督学习中可能的边界”。然而,它的局限性似乎支持了专家对所谓的预训练规律可能达到限制的越来越多的怀疑。

Openai联合创始人兼前首席科学家Ilya Sutskever在12月表示,“我们已经达到了峰值数据”,并且“众所周知,这将毫无疑问地结束”。他的评论回应了11月AI投资者,创始人和研究人员的担忧。

为了应对这些挑战,该行业(包括OpenAI)转向了推理模型,这些模型需要更长的时间来执行任务,但提供了更一致的结果。通过允许推理模型更多的时间和计算能力通过问题“思考”,AI实验室认为它们可以显着增强模型功能。

Openai计划最终将其GPT系列与其“ O”推理系列合并,从今年晚些时候GPT-5开始。尽管培训成本,延迟和未满足的内部期望,GPT-4.5可能并没有单独主张AI基准冠冕。但是Openai可能将其视为迈向更强大的事情的关键一步。

相关文章
OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Enhances AI Model Behind Its Operator Agent OpenAI Takes Operator to the Next LevelOpenAI is giving its autonomous AI agent, Operator, a major upgrade. The upcoming changes mean Operator will soon rely on a model based on o3
OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied OpenAI’s o3 AI model scores lower on a benchmark than the company initially implied Why Benchmark Discrepancies Matter in AIWhen it comes to AI, numbers often tell the story—and sometimes, those numbers don’t quite add up. Take OpenAI’s o3 model, for instance. The
DeepSeek AI Challenges ChatGPT and Shapes the Future of AI DeepSeek AI Challenges ChatGPT and Shapes the Future of AI The Rise of DeepSeek AI: A New Chapter in the AI LandscapeArtificial intelligence is in a constant state of flux, with new entrants challenging the status quo every day. Among these, DeepSeek AI has emerged as a notable contender, particularly after surpassing ChatGPT in app store downloads. This mi
评论 (50)
0/200
GregoryBaker
GregoryBaker 2025-04-10 08:00:00

GPT-4.5 'Orion' is impressive, but the quiet edit to the white paper was shady. It's like they're trying to hide something. Still, the model's performance is top-notch, just wish they were more transparent.

NicholasSanchez
NicholasSanchez 2025-04-10 08:00:00

GPT-4.5 'Orion'は印象的ですが、ホワイトペーパーの静かな編集は怪しいです。何かを隠そうとしているようです。それでも、モデルのパフォーマンスは最高です。もう少し透明性が欲しいですね。

JasonJohnson
JasonJohnson 2025-04-10 08:00:00

GPT-4.5 'Orion'은 인상적이지만, 백서의 조용한 수정은 수상쩍어요. 뭔가를 숨기려는 것 같아요. 그래도 모델의 성능은 최고예요. 좀 더 투명했으면 좋겠어요.

JasonAnderson
JasonAnderson 2025-04-10 08:00:00

GPT-4.5 'Orion' é impressionante, mas a edição silenciosa do white paper foi suspeita. Parece que estão tentando esconder algo. Ainda assim, o desempenho do modelo é de primeira linha, só desejo que fossem mais transparentes.

AvaHill
AvaHill 2025-04-10 08:00:00

GPT-4.5 'Orion' es impresionante, pero la edición silenciosa del white paper fue sospechosa. Parece que están tratando de ocultar algo. Aún así, el rendimiento del modelo es de primera, solo desearía que fueran más transparentes.

KennethMartin
KennethMartin 2025-04-10 08:00:00

GPT-4.5 'Orion' is massive, but the quiet edit to the white paper was shady. Why remove the 'not a frontier AI model' line? It's still a beast of a model, but the sneakiness is a bit off-putting. Transparency, please!

返回顶部
OR