抱团取暖:企业如何在保持性能的同时降低人工智能成本

许多公司都认为,人工智能的发展需要庞大的计算能力,这导致他们把获取更多资源作为首要任务。
然而,Hugging Face 公司的人工智能和气候主管萨沙-卢奇奥尼(Sasha Luccioni)提出了一条不同的道路。如果把重点转移到更智能地使用人工智能上会怎样?公司可以提高模型的性能和精度,而不是一味追求额外的(往往是过剩的)计算能力。
卢西奥尼认为,核心问题在于方法:企业应该追求更智能的计算,而不仅仅是更多的计算。
"她解释说:"我们忽略了更智能的方法,因为我们一味地需要更多的 FLOPS、更多的 GPU 和更多的时间。
以下是来自 Hugging Face 的五项关键策略,可帮助各种规模的企业更高效地部署人工智能。
1:为任务选择正确的模型
抵制为每种应用默认大规模通用模型的冲动。专业化或精炼的模型通常可以为特定任务实现同等甚至更高的精度,而且成本更低,能耗更少。
Luccioni 的研究表明,特定任务模型的能耗比通用模型低 20 到 30 倍。"她说:"这些模型是为单一目的而建立的,与为处理任何查询而设计的大型语言模型不同。
模型提炼在这里至关重要。可以对一个完整的模型进行初步训练,然后再针对特定功能进行改进。例如,Luccioni 指出,DeepSeek R1 是如此之大,以至于大多数企业都无力运行,通常至少需要 8 个 GPU。相比之下,经过提炼的版本可以缩小 10 到 30 倍,而且只需要一个 GPU 就能运行。
她还强调了开源模型的效率优势,因为开源模型无需从头开始训练。与几年前公司浪费资源寻找合适模型的情况不同,现在他们可以从基础模型开始,然后根据自己的需要进行微调。
"Luccioni 说:"这促进了协作式渐进创新,而不是各自为战,每个人都训练自己的模型,这实际上是在浪费计算资源。
越来越多的人意识到,生成式人工智能的成本往往超过了它的收益,这导致了企业的幻想破灭。虽然电子邮件撰写或会议转录等通用用途确实很有帮助,但针对特定任务的模型仍然需要大量的努力。Luccioni 认为,现成的模型往往不够用,而且成本更高。
缩小这一差距是实现附加值的下一个前沿领域。"Luccioni 指出:"大多数公司都希望完成特定的任务。"他们需要的不是人工通用智能(AGI),而是专业智能。这是我们需要应对的挑战。"
2.让效率成为默认值
在系统设计中融入 "劝导理论 "的原则,设定保守的计算预算,限制永远在线的生成功能,并要求用户选择高成本的计算模式。
在行为科学中,"暗示理论 "涉及巧妙地引导选择,以鼓励积极的行为。Luccioni 举了一个经典的例子,即在外卖餐点中提供餐具:将餐具作为一种选择,而不是默认提供,可以大大减少浪费。
从 "选择不使用 "模式到 "选择使用 "模式的简单转变就能有力地影响用户行为,"Luccioni 解释道。
默认设置往往会导致不必要的使用和成本的增加,因为模型会执行它们并不需要做的任务。例如,一些搜索引擎现在会在搜索结果的顶部自动生成人工智能摘要。Luccioni 还观察到,最近在使用 OpenAI 的 GPT-5 时,即使是非常简单的查询,模型也会默认为完全推理模式。
"她说:"对我来说,这应该是个例外。"如果我问'生命的意义是什么?但对于'蒙特利尔的天气如何?'或'当地药店的营业时间是什么?我不需要生成式摘要。默认值应该是不推理。
3.优化硬件利用率
实施批处理,调整数值精度,并针对特定硬件生成微调批处理大小,以尽量减少内存浪费和功耗。
公司应评估其具体需求:模型是否需要持续运行?它是否会面临实时请求,可能同时有 100 个请求?Luccioni 指出,在这种情况下,永远在线的优化是必不可少的。然而,在许多其他情况下,这并不是必要的;模型可以定期运行以节省内存,批处理可以优化内存使用。
"Luccioni 说:"这是一个工程挑战,但也是一个非常具体的挑战,因此很难给出'蒸馏所有模型'或'改变所有模型的精度'这样的一揽子建议。
在最近的一项研究中,她发现理想的批量大小在很大程度上取决于硬件,甚至取决于具体型号或版本。批量大小仅增加一个单位有时就会提高能耗,因为模型需要更多的内存资源。
"这是人们经常忽略的一个方面。他们认为,'我把批量最大化就行了',但真正的效率来自于对所有这些变量的细致调整。其结果是一个高度优化的系统,但却是一个根据非常具体的情况量身定制的系统,"Luccioni 解释道。
4.激励能源透明化
激励推动变革。考虑到这一点,Hugging Face 在今年早些时候推出了人工智能能源评分。这一举措采用 1 至 5 星评级系统来提高能效,其中能效最高的机型可获得 "五星 "称号。
它可以被看作是 "人工智能的能源之星",其灵感来自于一个长期存在的联邦计划,该计划设定了能效标准,并为符合条件的电器贴上其标识。
"几十年来,星级评定一直是一个强大的激励因素。人们需要它,"Luccioni 说。"如果能源分数也能产生类似的影响,那就太棒了。
Hugging Face已经建立了一个公共排行榜,并计划在9月份用DeepSeek和GPT-oss等新模型对其进行更新,然后每六个月或当新模型出现时继续刷新。卢奇奥尼说,这样做的目的是让模型开发者把高分视为一种 "荣誉徽章"。
5.反思 "计算越多越好 "的思维模式
与其追求最大的 GPU 集群,不如从以下问题入手:"实现预期结果的最智能方法是什么?对于许多应用而言,更智能的架构和更好的数据集比野蛮扩展能产生更好的结果。
"Luccioni表示:"我相信,大多数人可能并不需要想象中那么多的GPU。她鼓励企业重新考虑 GPU 将处理的实际任务、为什么需要 GPU、以前是如何执行这些任务的,以及增加 GPU 究竟能带来哪些实际好处。
"她说:"这已经成为一场竞相追逐的竞赛,每个人都觉得自己需要一个更大的集群。"关键是要分析你使用人工智能的目的是什么,需要哪些特定技术,以及这些技术的真正需求是什么。"
相关文章
亚马逊在2025年将100B $ 100B
尽管最近的嗡嗡声表明DeepSeek会迎来一个AI预算减少的时代,但没有迹象表明Big Tech正在刹车。相反,他们正在加油。亚马逊是揭示大量AI支出计划的最新巨人,预测CAPI超过1000亿美元
NVIDIA揭幕下一代GPU:Blackwell Ultra,Vera Rubin,Feynman
在周二在圣何塞举行的NVIDIA GTC 2025会议上,首席执行官詹森·黄(Jensen Huang)推出了即将到来的GPU阵容,即将在未来几个月内投放市场。节目的明星? Vera Rubin GPU计划在下半场2026年发行。这只野兽拥有数十千兆字节的记忆,并带有cust
免费开源AI国际象棋引擎Maia 3正式发布,旨在提升人类的棋艺水平
Maia Chess团队发布了一款新的开源国际象棋引擎——Maia 3,该引擎基于2.5亿局真实人类对局进行训练。其Elo等级分达到约1800分,比上一版本高出近300分。 最棒的是,它完全免费且开源,支持本地部署,标志着让人工智能国际象棋引擎普及大众迈出了重要一步。独特方法:模拟人类决策与AlphaZero和Stockfish等旨在实现Elo等级分超过3500的超人类水平顶级引擎不同,Maia专
相关专题推荐
评论 (0)
0/500

许多公司都认为,人工智能的发展需要庞大的计算能力,这导致他们把获取更多资源作为首要任务。
然而,Hugging Face 公司的人工智能和气候主管萨沙-卢奇奥尼(Sasha Luccioni)提出了一条不同的道路。如果把重点转移到更智能地使用人工智能上会怎样?公司可以提高模型的性能和精度,而不是一味追求额外的(往往是过剩的)计算能力。
卢西奥尼认为,核心问题在于方法:企业应该追求更智能的计算,而不仅仅是更多的计算。
"她解释说:"我们忽略了更智能的方法,因为我们一味地需要更多的 FLOPS、更多的 GPU 和更多的时间。
以下是来自 Hugging Face 的五项关键策略,可帮助各种规模的企业更高效地部署人工智能。
1:为任务选择正确的模型
抵制为每种应用默认大规模通用模型的冲动。专业化或精炼的模型通常可以为特定任务实现同等甚至更高的精度,而且成本更低,能耗更少。
Luccioni 的研究表明,特定任务模型的能耗比通用模型低 20 到 30 倍。"她说:"这些模型是为单一目的而建立的,与为处理任何查询而设计的大型语言模型不同。
模型提炼在这里至关重要。可以对一个完整的模型进行初步训练,然后再针对特定功能进行改进。例如,Luccioni 指出,DeepSeek R1 是如此之大,以至于大多数企业都无力运行,通常至少需要 8 个 GPU。相比之下,经过提炼的版本可以缩小 10 到 30 倍,而且只需要一个 GPU 就能运行。
她还强调了开源模型的效率优势,因为开源模型无需从头开始训练。与几年前公司浪费资源寻找合适模型的情况不同,现在他们可以从基础模型开始,然后根据自己的需要进行微调。
"Luccioni 说:"这促进了协作式渐进创新,而不是各自为战,每个人都训练自己的模型,这实际上是在浪费计算资源。
越来越多的人意识到,生成式人工智能的成本往往超过了它的收益,这导致了企业的幻想破灭。虽然电子邮件撰写或会议转录等通用用途确实很有帮助,但针对特定任务的模型仍然需要大量的努力。Luccioni 认为,现成的模型往往不够用,而且成本更高。
缩小这一差距是实现附加值的下一个前沿领域。"Luccioni 指出:"大多数公司都希望完成特定的任务。"他们需要的不是人工通用智能(AGI),而是专业智能。这是我们需要应对的挑战。"
2.让效率成为默认值
在系统设计中融入 "劝导理论 "的原则,设定保守的计算预算,限制永远在线的生成功能,并要求用户选择高成本的计算模式。
在行为科学中,"暗示理论 "涉及巧妙地引导选择,以鼓励积极的行为。Luccioni 举了一个经典的例子,即在外卖餐点中提供餐具:将餐具作为一种选择,而不是默认提供,可以大大减少浪费。
从 "选择不使用 "模式到 "选择使用 "模式的简单转变就能有力地影响用户行为,"Luccioni 解释道。
默认设置往往会导致不必要的使用和成本的增加,因为模型会执行它们并不需要做的任务。例如,一些搜索引擎现在会在搜索结果的顶部自动生成人工智能摘要。Luccioni 还观察到,最近在使用 OpenAI 的 GPT-5 时,即使是非常简单的查询,模型也会默认为完全推理模式。
"她说:"对我来说,这应该是个例外。"如果我问'生命的意义是什么?但对于'蒙特利尔的天气如何?'或'当地药店的营业时间是什么?我不需要生成式摘要。默认值应该是不推理。
3.优化硬件利用率
实施批处理,调整数值精度,并针对特定硬件生成微调批处理大小,以尽量减少内存浪费和功耗。
公司应评估其具体需求:模型是否需要持续运行?它是否会面临实时请求,可能同时有 100 个请求?Luccioni 指出,在这种情况下,永远在线的优化是必不可少的。然而,在许多其他情况下,这并不是必要的;模型可以定期运行以节省内存,批处理可以优化内存使用。
"Luccioni 说:"这是一个工程挑战,但也是一个非常具体的挑战,因此很难给出'蒸馏所有模型'或'改变所有模型的精度'这样的一揽子建议。
在最近的一项研究中,她发现理想的批量大小在很大程度上取决于硬件,甚至取决于具体型号或版本。批量大小仅增加一个单位有时就会提高能耗,因为模型需要更多的内存资源。
"这是人们经常忽略的一个方面。他们认为,'我把批量最大化就行了',但真正的效率来自于对所有这些变量的细致调整。其结果是一个高度优化的系统,但却是一个根据非常具体的情况量身定制的系统,"Luccioni 解释道。
4.激励能源透明化
激励推动变革。考虑到这一点,Hugging Face 在今年早些时候推出了人工智能能源评分。这一举措采用 1 至 5 星评级系统来提高能效,其中能效最高的机型可获得 "五星 "称号。
它可以被看作是 "人工智能的能源之星",其灵感来自于一个长期存在的联邦计划,该计划设定了能效标准,并为符合条件的电器贴上其标识。
"几十年来,星级评定一直是一个强大的激励因素。人们需要它,"Luccioni 说。"如果能源分数也能产生类似的影响,那就太棒了。
Hugging Face已经建立了一个公共排行榜,并计划在9月份用DeepSeek和GPT-oss等新模型对其进行更新,然后每六个月或当新模型出现时继续刷新。卢奇奥尼说,这样做的目的是让模型开发者把高分视为一种 "荣誉徽章"。
5.反思 "计算越多越好 "的思维模式
与其追求最大的 GPU 集群,不如从以下问题入手:"实现预期结果的最智能方法是什么?对于许多应用而言,更智能的架构和更好的数据集比野蛮扩展能产生更好的结果。
"Luccioni表示:"我相信,大多数人可能并不需要想象中那么多的GPU。她鼓励企业重新考虑 GPU 将处理的实际任务、为什么需要 GPU、以前是如何执行这些任务的,以及增加 GPU 究竟能带来哪些实际好处。
"她说:"这已经成为一场竞相追逐的竞赛,每个人都觉得自己需要一个更大的集群。"关键是要分析你使用人工智能的目的是什么,需要哪些特定技术,以及这些技术的真正需求是什么。"
亚马逊在2025年将100B $ 100B
尽管最近的嗡嗡声表明DeepSeek会迎来一个AI预算减少的时代,但没有迹象表明Big Tech正在刹车。相反,他们正在加油。亚马逊是揭示大量AI支出计划的最新巨人,预测CAPI超过1000亿美元
NVIDIA揭幕下一代GPU:Blackwell Ultra,Vera Rubin,Feynman
在周二在圣何塞举行的NVIDIA GTC 2025会议上,首席执行官詹森·黄(Jensen Huang)推出了即将到来的GPU阵容,即将在未来几个月内投放市场。节目的明星? Vera Rubin GPU计划在下半场2026年发行。这只野兽拥有数十千兆字节的记忆,并带有cust





首页






