OpenAI 的 GPT-4.5 模型亮相：批判性评估

首页

新闻

2025-11-01

JonathanJackson

121

OpenAI 最近发布的 GPT-4.5 令人工智能界沸腾不已。在直播揭晓之后，核心问题仍然是：这是一次重大突破，还是一次微妙的升级？我们将深入分析围绕 GPT-4.5 的各种说法，并将其与前代产品和竞争对手进行比较，从而将事实与宣传炒作区分开来。

关键点

GPT-4.5 在市场上被宣传为具有增强预训练功能的多功能通用模型。

早期的基准数据显示，GPT-4.5 在特定任务上落后于某些开源模型。

GPT-4.5 的应用程序接口价格大大高于以前的版本。

人们开始质疑，OpenAI 是否在优先考虑纯粹的规模，而不是模型架构和训练方法上真正的创新改进。

DeepSeek V3 等替代方案提供了性能相当、效率更高的强大开源选择。

GPT-4.5：承诺与现实

初步反应和悬而未决的问题

人们对 GPT-4.5 的反应既兴奋又怀疑。

强调让机型看起来 "更自然"，引发了人们对其具体、可衡量的进步的质疑。许多人不禁要问：它的幻觉减少了吗？它的幻觉是否减少了？它在日常应用中真正超越 GPT-4o 的程度有多大？这些悬而未决的疑问要求我们更深入地研究该模型的性能和技术基础。

在人工智能领域，失望之情溢于言表。用户正在寻求可量化的进步，而不仅仅是表面上自然的对话风格。真正衡量人工智能成功与否的标准是其管理复杂任务、提供实用解决方案和产生真正创造性成果的能力。

任何人工智能模型最终都要根据其客观性能和成本效益来评判。如果不能在这些关键领域取得长足进步，"更自然 "的交互方式可能不足以成为升级的理由。

基准比较：近距离观察

GPT-4.5 的官方基准数据略显平淡。

虽然它在某些领域取得了进步，但与 DeepSeek V3（一种相对较新的开源模型）相比，其性能明显不足。考虑到 OpenAI 丰富的资源和专业知识，这一点令人惊讶。将 GPT-4.5 主要与其直接前身 GPT-4o 进行比较，而不是与更广泛的现代竞争对手进行比较，这一决定进一步加深了人们的怀疑。

以下是基准性能的细分，重点关注关键领域：

数学（AIME '24）：GPT-4.5 实现了 36.7% 的准确率，与其他可用的基础模型相比相对较低。这是一项至关重要的能力，因为强大的数学推理能力对于众多现实世界的应用至关重要。
科学（GPQA）：在这方面，GPT-4.5 的表现更为稳健，准确率达到 71.4%。这表明 GPT-4.5 对科学原理有扎实的理解，但这并不意味着 GPT-4.5 的整体能力超群。
编码（SWE-Bench 验证）：GPT-4.5 的得分率为 38%，表明其在编程任务方面存在明显不足。

重要的是要记住，这些基准只能有限地反映模型在特定、受控场景中的能力。要进行全面评估，就必须在不同的实际应用中进行测试，以准确衡量其潜力。

任务	GPT-4.5 精确度	GPT-4o 精度
GPQA（科学）	71.4%	53.6%
AIME '24（数学）	36.7%	9.3%
SWE-Bench 验证（编码）	38%	31%
MMMU（多模式）	74.4%	69.1%

API 定价：自然 "的溢价？

使用 GPT-4.5 应用程序接口的成本明显高于早期版本。

这种定价策略引发了关于可访问性的重要问题，尤其是对小公司和独立开发人员而言。在 "自然性 "方面的改进是否足以证明大幅提价是合理的？

对于大多数人来说，答案可能是否定的。人工智能模型的根本价值在于其性能、精度和运行效率。如果 GPT-4.5 无法在这些核心指标上实现实质性飞跃，那么其高昂的成本就很难得到维护。价格更低廉的开源替代品很可能会获得巨大的吸引力。

考虑一下 Aider 编码基准：在 GPT-4.5 上执行该基准要比使用 DeepSeek V3 昂贵得多。这种价格上的差距造成了更高的准入门槛，可能会阻碍 GPT-4.5 在开发人员中的广泛应用。

此外，据说它的价格比 DeepSeek 高出数百倍。仅这一成本因素就可能成为许多人放弃 GPT-4.5 而选择更经济的系统的决定性原因。

模型	输入价格（每 100 万个代币）	输出价格（每 100 万个代币）
GPT-4.5	$75.00	$150.00
GPT-4o	$2.50	$10.00

开源替代品的崛起：DeepSeek V3

DeepSeek V3 为何值得关注

DeepSeek V3等高性能开源模型的崛起对OpenAI的市场领导地位构成了严峻挑战。

DeepSeek V3提供了极具竞争力的性能、运行效率和模型透明度等极具吸引力的组合。据报道，它的成本比 GPT-4.5 低数百倍。

以下是它的一些主要优势：

有竞争力的性能：基准测试表明，DeepSeek V3 在数学和编码等关键领域可与 GPT-4.5 竞争，有时甚至超越 GPT-4.5。
成本效益：作为开源软件，DeepSeek V3 没有相关的应用程序接口（API）成本，因此部署成本大大降低。这就为更多人提供了先进的人工智能技术。
透明度和定制化：开源模型提供了更高的工作透明度，并允许进行广泛的定制。开发人员可以根据特定用途调整模型，并参与其演变。

值得注意的是，DeepSeek 最近举办了 "开源周 "活动，发布了多个专注于 GPU 效率和优化的资源库。这正是许多企业扩大运营所需的实用创新类型，而不仅仅是完善模型的对话感。

GPT-4.5：权衡利弊

优点

有可能实现更自然、更流畅的语言交互。

可能在某些任务类别中取得专业进步。

来自 OpenAI 的持续开发和维护支持。

强大的通用语言能力。

缺点

与同类产品相比，API 成本过高。

在多个基准测试中，性能落后于领先的开源替代方案。

模型的内部架构和训练数据不够清晰。

在数学和编码任务方面存在明显弱点。

价格比 GPT-4o 高 12 到 30 倍。

常见问题

GPT-4.5 是 GPT-4o 的重大升级吗？

最初的基准测试结果并不一致。它在某些学科上取得了进步，但在特定挑战上与其他开源模型相比还有差距。要明确评估其价值，需要进行更全面的实际评估。

GPT-4.5 是否值得高昂的应用程序接口费用？

答案取决于您的特殊要求和资金限制。如果您需要为特定的关键应用提供顶级性能，那么可能值得考虑。但是，对于大多数用户来说，高昂的价格很难让人信服，尤其是在有能力免费提供开源选项的情况下。

DeepSeek V3 等开源人工智能模型的主要优势是什么？

开源模型具有极具竞争力的性能、卓越的成本效益、更高的操作透明度和定制灵活性。它们使每个人都能获得强大的人工智能工具，并鼓励社区驱动的创新。

相关问题

人工智能模型开发的未来是什么？

人工智能发展的轨迹可能会涉及专有和开源努力之间的协同作用。OpenAI 等大型科技公司将继续通过大规模模型推动技术发展，而开源社区在实现人工智能访问民主化以及通过合作开发和定制化促进创新方面将发挥至关重要的作用。重要的是要认识到 GPT-4.5 有明显的不足之处，OpenAI 需要解决几个方面的问题，才能有效地与其他开源模型竞争。

Talat 的 AI 会议记录存储在您的设备上，而非云端估值达2.5亿美元的AI笔记应用Granola在科技创业者和风险投资家群体中备受追捧。但一位开发者认为，市场需要一款更注重隐私、完全本地化、只需一次性付费且无需订阅的替代方案。这一构想催生了一款名为Talat的新Mac应用。来自英国约克郡的尼克·佩恩（Nick Payne）自称是位计算机极客，他表示开发本地化AI笔记应用的灵感，很大程度上源于一系列幸运的偶然。“我认为Granola非常出色；它充分

全新荣威i6上市，售价65.9万元，搭载骁龙8155芯片和“斗宝”大模型上汽荣威今日发布了全新荣威i6，这款紧凑型轿车全面采用了荣威D7的设计语言。其标志性的直立式大尺寸格栅与横向光带灯组贯穿车头，营造出强烈的科技感与视觉宽度。车尾部分，上翘的鸭尾式扰流板与贯穿式尾灯相得益彰，赋予整车更富活力的年轻化外观。全新荣威i6车身长4767毫米、宽1828毫米、高1498毫米，轴距为2755毫米。得益于宽敞的车内空间，它跻身A+级轿车行列，在后排头部空间和膝部空间方面具

如何保护资产、建筑物和个人健康？在这个充满变数的世界里，保障已不再仅仅是一种选择，而是成为了一项战略必需。无论是守护财务安全、加固建筑结构，还是关注个人健康，长久的稳定都依赖于前瞻性的规划。真正的安全是多层次的，它需要财务监管、结构韧性以及明智的健康意识三者协同作用。保护最重要的东西意味着未雨绸缪，而非仅在损失发生后被动应对。财务保障：第一道防线每个人和每家企业都运行在财务体系之中。收入、支出、负债和投资构成了稳定的基石。若缺乏

相关专题推荐

商业

顶级 AI 定价优化软件：追踪竞争对手并自动调整店铺价格

在 XIX.AI 上探索 2026 年最佳 AI 定价优化软件。我们精心挑选的清单汇集了备受好评、具有颠覆性意义的工具，这些工具不仅能追踪竞争对手，还能自动调整您的店铺价格，从而实现利润最大化。通过实际测试对比免费与付费选项。立即掌握您的定价优势。

10 个工具

xix.ai

代码

最佳 AI 代码审查工具：自动确保代码符合规范，并重构遗留代码库文件

在 XIX.AI 上探索 2026 年最佳 AI 代码审查工具。我们的精选列表汇集了备受好评、具有颠覆性的工具，可自动确保代码规范并重构遗留代码库文件。通过实际测试和每周更新的排行榜，对比免费与付费选项。立即开启您的 AI 优势。

10 个工具

xix.ai

文字转语音

专为阅读障碍设计的顶级AI语音合成应用：助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成（TTS）应用，专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具，重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案，释放学生的潜能。立即访问XIX.AI，开启您的探索之旅。

10 个工具

xix.ai

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

0/500

请登录后再操作

GregoryRamirez

2026-04-29 00:00:58

Die Diskussion um GPT-4.5 erinnert mich an die ewige Frage: Ist es wirklich ein Durchbruch oder nur ein cleveres Marketing-Upgrade? 🤔 Die Geschwindigkeitssteigerung klingt praktisch, aber ich frage mich, ob die Kosten für Endnutzer wieder steigen werden. Die KI-Community scheint gespalten – einige feiern es, andere sehen nur inkrementelle Fortschritte. Spannend wird sein, wie sich das auf den Wettbewerb mit anderen Modellen auswirkt.

KennethRoberts

2026-04-16 12:02:09

Die Diskussion um GPT-4.5 ist echt spannend. Ich frage mich, ob die Verbesserungen wirklich so bahnbrechend sind oder ob es eher um Marketing geht. Die KI-Entwicklung wird immer schneller, aber die Kosten und der Energieverbrauch sind auch ein Thema, über das man reden sollte. 🤔

RichardJohnson

2026-03-02 08:00:14

이번 GPT-4.5 발표를 보면서 AI 경쟁이 점점 더 치열해지고 있다는 생각이 들어요. 🤔 다른 기업들도 곧 비슷한 모델을 내놓지 않을까? 기술 발전 속도가 너무 빨라서 따라가기 벅차네요. 개인정보 보호 문제는 어떻게 해결할지 궁금해지는데...

FredLee

2026-02-13 12:00:43

Wait, another model drop already? 🤔 The speed is insane but I'm low-key worried about how smaller AI labs can keep up. Also, did they mention anything about training costs this time? The energy consumption talk is always glossed over...

FredBrown

2025-12-03 08:30:34

Est-ce que GPT-4.5 est vraiment une révolution ou juste un coup marketing? 🤔 J’ai l’impression qu’OpenAI accélère la cadence pour devancer la concurrence, mais est-ce au détriment de la stabilité ? En tout cas, ça donne envie de tester !

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选