Google启动高级AI推理模型系列

周二,Google推出了Gemini 2.5,一套全新的AI模型,这些模型在给出答案前会真正“思考”片刻。就像它们在试图模仿我们人类,对吧?
领头的是Gemini 2.5 Pro Experimental,Google宣称这是他们迄今最智能的模型。这个厉害的家伙是多模态的,能像冠军一样处理推理任务。从周二开始,你可以在Google AI Studio上体验它,或者如果你每月支付20美元订阅Gemini Advanced,你可以通过Gemini应用访问它。
Google对推理功能非常重视——他们计划将其融入未来所有的AI模型中。
自从OpenAI在2024年9月发布了首个AI推理模型o1以来,科技界一直在奋力追赶。现在,Anthropic、DeepSeek、Google和xAI都在推出自己的推理模型。这些模型需要更多时间和计算能力来核查事实并思考问题,然后再给出答案。
推理技术对AI来说是个游戏规则的改变者,特别是在数学和编码方面。科技界的许多人认为,这些推理模型对AI代理——那些无需人类监督就能自主完成任务的系统——至关重要。不过,它们的成本也更高。
Google对此并不陌生——他们之前已经尝试过推理模型,比如去年12月发布的那个“思考”版本的Gemini。但Gemini 2.5?这是他们向OpenAI的“o”系列发起的重大挑战。
Google声称Gemini 2.5 Pro在多项基准测试中超越了他们的旧模型和竞争对手的一些顶级模型。他们定制了Gemini 2.5,使其在视觉上惊艳的网页应用和能够独立运行的编码项目中表现出色。
在Aider Polyglot代码编辑测试中,Gemini 2.5 Pro取得了68.6%的优异成绩,击败了OpenAI、Anthropic和DeepSeek的最佳模型。但在SWE-bench Verified软件开发测试中,它达到了63.8%——足以击败OpenAI的o3-mini和DeepSeek的R1,但未能超过Anthropic的Claude 3.7 Sonnet,后者得分70.3%。
还有Humanity's Last Exam,这是一个包含数学、人文学科和科学等数千道题目的复杂多模态测试。Gemini 2.5 Pro取得了18.8%的成绩,优于大多数知名模型。
一经推出,Gemini 2.5 Pro就具备100万个令牌的上下文窗口——这就像能一口气读完整个《指环王》系列。而且很快,他们计划将其扩展到200万个令牌。
Google目前尚未公开API定价,但他们承诺将在未来几周内公布详情。
相关文章
谷歌最新的双子座人工智能模型在测试中显示安全得分下降
谷歌的内部测试显示,与以前的版本相比,其最新人工智能模型的安全协议性能下降令人担忧。根据最新公布的基准,在处理文本和图像提示时,Gemini 2.5 Flash 模型在关键安全指标上的准则违反率比以往高出 4-10%。这家科技巨头的自动评估结果凸显了令人担忧的趋势:当出现边界测试提示时,Gemini 2.5 Flash 比其前身 Gemini 2.0 更频繁地跨越既定的内容安全线。谷歌的技术团队将
谷歌的 Stitch AI 简化了应用程序设计流程
谷歌在 I/O 2025 大会上发布人工智能设计工具 Stitch在 2025 年谷歌 I/O 大会的主题演讲中,谷歌推出了革命性的人工智能界面设计工具 Stitch。这一创新解决方案可将自然语言提示或参考图片转化为功能齐全的用户界面设计,并提供可直接投入生产的 HTML 和 CSS 代码。Stitch的双模型架构可在Gemini 2.5 Pro和Flash模型之间灵活切换,以满足不同的设计需求图
谷歌为 Gmail、文档和视频推出人工智能工具
谷歌在 2025 年 I/O 大会上发布人工智能驱动的工作空间更新在年度开发者大会上,谷歌推出了工作空间套件的变革性人工智能增强功能,从根本上改变了用户与 Gmail、Docs 和视频的交互方式。更新的重点是智能自动化和简化生产力应用中的工作流程。图片来源:Google谷歌Gmail 的智能生产力功能电子邮件服务将获得两项突破性的功能:智能回复(Context-Aware Smart Replie
评论 (37)
0/200
JasonRamirez
2025-08-24 21:01:19
Whoa, Google’s Gemini 2.5 sounds like it’s got a brain of its own, pausing to ‘think’ before answering! 😮 Makes me wonder if it’ll outsmart us at pub quizzes soon. Cool tech, but I hope it doesn’t start overanalyzing my bad jokes.
0
EricMiller
2025-08-10 17:01:00
Google's Gemini 2.5 sounds like a brainy upgrade! I wonder if it’ll outsmart my math homework. 🤓 Excited to see how it stacks up against other AI models.
0
RonaldMartinez
2025-04-24 12:43:27
Gemini 2.5 is pretty cool! It's like it pauses to think before answering, which is kinda human-like. I tried it out and it's definitely smarter than the last version. Only thing is, sometimes it takes too long to respond, but hey, I guess that's the price of deep thinking! 🤔
0
RalphHill
2025-04-22 22:53:21
O Gemini 2.5 é bem legal, mas às vezes demora muito para 'pensar'. Entendo que está tentando ser mais humano, mas quando preciso de respostas rápidas, é um pouco frustrante. Ainda assim, é mais inteligente que a maioria dos AIs por aí! 🤖💭
0
HenryJackson
2025-04-20 14:08:13
ジェミニ2.5は結構クールだけど、時々「考える」のに時間がかかりすぎる。もっと人間っぽくなるのは分かるけど、早く答えが欲しい時はちょっとイライラする。でも、他のAIより賢いからね!🤖💭
0
JerryGonzález
2025-04-19 20:28:17
ジェミニ2.5、面白いですね!回答前に少し考えるのが人間っぽくて好きです。試してみたら前より賢くなってるのがわかりました。ただ、時々レスポンスが遅いのが気になりますが、深く考えるための代償だと思えば許せますね!🤔
0
周二,Google推出了Gemini 2.5,一套全新的AI模型,这些模型在给出答案前会真正“思考”片刻。就像它们在试图模仿我们人类,对吧?
领头的是Gemini 2.5 Pro Experimental,Google宣称这是他们迄今最智能的模型。这个厉害的家伙是多模态的,能像冠军一样处理推理任务。从周二开始,你可以在Google AI Studio上体验它,或者如果你每月支付20美元订阅Gemini Advanced,你可以通过Gemini应用访问它。
Google对推理功能非常重视——他们计划将其融入未来所有的AI模型中。
自从OpenAI在2024年9月发布了首个AI推理模型o1以来,科技界一直在奋力追赶。现在,Anthropic、DeepSeek、Google和xAI都在推出自己的推理模型。这些模型需要更多时间和计算能力来核查事实并思考问题,然后再给出答案。
推理技术对AI来说是个游戏规则的改变者,特别是在数学和编码方面。科技界的许多人认为,这些推理模型对AI代理——那些无需人类监督就能自主完成任务的系统——至关重要。不过,它们的成本也更高。
Google对此并不陌生——他们之前已经尝试过推理模型,比如去年12月发布的那个“思考”版本的Gemini。但Gemini 2.5?这是他们向OpenAI的“o”系列发起的重大挑战。
Google声称Gemini 2.5 Pro在多项基准测试中超越了他们的旧模型和竞争对手的一些顶级模型。他们定制了Gemini 2.5,使其在视觉上惊艳的网页应用和能够独立运行的编码项目中表现出色。
在Aider Polyglot代码编辑测试中,Gemini 2.5 Pro取得了68.6%的优异成绩,击败了OpenAI、Anthropic和DeepSeek的最佳模型。但在SWE-bench Verified软件开发测试中,它达到了63.8%——足以击败OpenAI的o3-mini和DeepSeek的R1,但未能超过Anthropic的Claude 3.7 Sonnet,后者得分70.3%。
还有Humanity's Last Exam,这是一个包含数学、人文学科和科学等数千道题目的复杂多模态测试。Gemini 2.5 Pro取得了18.8%的成绩,优于大多数知名模型。
一经推出,Gemini 2.5 Pro就具备100万个令牌的上下文窗口——这就像能一口气读完整个《指环王》系列。而且很快,他们计划将其扩展到200万个令牌。
Google目前尚未公开API定价,但他们承诺将在未来几周内公布详情。



Whoa, Google’s Gemini 2.5 sounds like it’s got a brain of its own, pausing to ‘think’ before answering! 😮 Makes me wonder if it’ll outsmart us at pub quizzes soon. Cool tech, but I hope it doesn’t start overanalyzing my bad jokes.




Google's Gemini 2.5 sounds like a brainy upgrade! I wonder if it’ll outsmart my math homework. 🤓 Excited to see how it stacks up against other AI models.




Gemini 2.5 is pretty cool! It's like it pauses to think before answering, which is kinda human-like. I tried it out and it's definitely smarter than the last version. Only thing is, sometimes it takes too long to respond, but hey, I guess that's the price of deep thinking! 🤔




O Gemini 2.5 é bem legal, mas às vezes demora muito para 'pensar'. Entendo que está tentando ser mais humano, mas quando preciso de respostas rápidas, é um pouco frustrante. Ainda assim, é mais inteligente que a maioria dos AIs por aí! 🤖💭




ジェミニ2.5は結構クールだけど、時々「考える」のに時間がかかりすぎる。もっと人間っぽくなるのは分かるけど、早く答えが欲しい時はちょっとイライラする。でも、他のAIより賢いからね!🤖💭




ジェミニ2.5、面白いですね!回答前に少し考えるのが人間っぽくて好きです。試してみたら前より賢くなってるのがわかりました。ただ、時々レスポンスが遅いのが気になりますが、深く考えるための代償だと思えば許せますね!🤔












