DeepSeek摇动AI行业:下一个AI LEAP可能取决于推理时的计算增加,而不是更多的数据
2025年04月17日
AlbertWalker
48

AI行业处于不断变化的状态,2025年带来了一些改变游戏规则的发展,这些发展正在震撼。当中国人工智能实验室DeepSeek以新型号降低了重磅炸弹,导致NVIDIA股票下跌17%并影响了其他AI数据中心股票时,一次重大改组。 DeepSeek模型的嗡嗡声?它以其他竞争对手为代价的一小部分提供一流的表现,激发了这对AI数据中心未来意味着什么的风暴。
但是,要真正了解DeepSeek的所作所为,我们需要缩小并查看更大的情况。人工智能世界正在努力解决培训数据的稀缺性。大型玩家已经在大多数公共互联网数据中咀嚼,这意味着我们正在训练前的改进。结果,该行业向“测试时间计算”(TTC)转移了齿轮。将其视为AI模型花点时间“思考”之前,就像Openai的“ O”系列一样。希望TTC能够提供与曾经预先培训相同的扩展改进,可能会带来下一个大浪潮的AI突破。
这些转变标志着两个重大变化:首先,较小的预算实验室正在游戏中,推出了尖端的型号。其次,TTC已成为推动AI向前发展的新领域。让我们分解这些趋势以及它们对AI景观和市场的意义。
对AI行业的影响
我们认为,转移到TTC的转移以及推理模型之间的竞争中的竞争可以重塑多个方面的AI景观:硬件,云平台,基础模型和企业软件。
1。硬件(GPU,专用芯片和计算基础架构)
向TTC的转变可能会改变硬件AI公司的需求以及如何管理它。他们没有将资金投入到越来越多的GPU集群中进行培训,而是开始专注于加强其应对TTC需求的推理能力。尽管GPU对于推断仍然至关重要,但训练和推理工作负载之间的差异可能会影响这些芯片的设置和使用方式。由于推理工作负载更加不可预测和“尖峰”,因此为容量计划的计划可能会变得更加棘手。
我们还认为,这种转变可以推动专门为低延迟推断(例如ASIC)设计的硬件市场。随着TTC比训练能力更为重要,通用GPU的统治可能开始减少,为专门推理芯片制造商打开了大门。
2。云平台:高标准(AWS,Azure,GCP)和云计算
除准确性问题外,在企业中采用AI的一个主要障碍是推论API的不可靠性。响应时间不一致,速率限制和并发请求的麻烦可能是一个真正的头痛。 TTC可以使这些问题变得更糟。在这种情况下,可以保证要解决这些问题的高质量服务(QoS)的云提供商可能会大大增加。
有趣的是,即使新方法可能会提高AI效率,但它们可能不会降低对硬件的需求。遵循杰文斯(Jevons)的悖论,在更高的效率中导致更多的消耗,更有效的推理模型可以推动更多的开发人员使用推理模型,从而提高了计算能力的需求。我们认为,最近的模型改进可能会促使人们对云AI计算的需求更多,包括推理和较小的专业模型培训。
3。基础模型提供商(OpenAI,人类,cohere,Deepseek,Mistral)
如果像DeepSeek这样的新进入者可以以一小部分成本与大型枪支对手,那么专有的预训练模型的据点可能会开始崩溃。我们还可以期望TTC在变压器模型中有更多的创新,正如DeepSeek所表明的那样,这些创新可能来自AI通常的嫌疑犯以外的意外地方。
4。企业AI采用和SaaS(应用程序层)
鉴于DeepSeek在中国的根源,从安全性和隐私的角度来看,他们的产品肯定会进行审查。他们的中国API和聊天机器人服务不太可能与美国,加拿大或其他西方国家的企业AI客户相处。许多公司已经在阻止DeepSeek的网站和应用程序。即使由西方数据中心的第三方主持,DeepSeek的模型也可能面临审查,这可能会限制其在企业中的采用。研究人员正在标记诸如越狱,偏见和有害内容产生的问题。尽管某些企业可能会尝试使用DeepSeek的模型,但由于这些担忧,广泛采用似乎不太可能。
另一方面,垂直专业化正在获得地面。过去,建立在基础模型上的垂直应用都是关于创建量身定制的工作流程。在调整这些特定用例的通用模型中,诸如检索型生成(RAG),模型路由,功能调用和护栏之类的技术一直是关键。但是一直担心,基础模型的重大改进可能会使这些应用程序过时。山姆·奥特曼(Sam Altman)曾警告说,模型能力的巨大飞跃可以“蒸蒸日上”这些创新。
但是,如果我们看到火车时间计算的平稳性,那么快速超越的威胁就会减少。在TTC优化的模型性能改进的世界中,可能会出现新的机会,即应用程序层玩家。诸如结构化迅速优化,潜伏感知的推理策略和有效抽样技术之类的创新可以在特定的垂直领域提供巨大的性能。
这些改进与以推理为重点的模型(如OpenAI的GPT-4O和DeepSeek-R1)特别相关,这些模型可能需要几秒钟才能做出回应。在实时应用中,降低特定领域内的潜伏期和提高推理质量可能会带来竞争优势。结果,具有深层领域知识的公司可能在优化推论效率和微调产出方面发挥着至关重要的作用。
DeepSeek的工作表明,我们正不再依靠更多的预培训来提高模型质量。相反,TTC变得越来越重要。虽然尚不清楚由于审查而在企业软件中是否会广泛采用DeepSeek的模型,但它们对改善其他模型的影响越来越明显。
我们认为,DeepSeek的创新正在推动已建立的AI实验室采用类似的技术,从而补充了他们现有的硬件优势。预测的模型成本下降似乎在推动更多的模型使用情况,这符合Jevons悖论模式。
Pashootan Vaezipoor是乔治亚语的技术负责人。
相关文章
前Deepseeker和合作者發布了新的培訓可靠AI代理的方法:Ragen
人工智能代理年度:仔細研究2025年的期望和現實2025年被許多專家預示為當年的AI代理商(由高級大型語言和多式聯運公司提供支持的AI代理商),來自OpenAI,Anthropic,Google和Google和Deepseek等公司,最終將帶上中心中心中心中心。
DeepSeek的AIS發現了真正的人類慾望
DeepSeek在AI獎勵模型中的突破性:加強AI推理和響應中國AI初創公司DeepSeek與Tsinghua University合作,在AI研究中取得了重要的里程碑。他們對AI獎勵模型的創新方法有望徹底改變AI系統的學習方式
研究人員以低於50美元的價格開發了OpenAI $ 50“推理”模型的開源競爭對手
上週五,斯坦福大學和華盛頓大學的AI專家的一份開創性的研究論文襲擊了現場,透露,他們設法開發了一種被稱為S1的AI“推理”模型,以低於50美元的雲計算學分。 S1擁有自己的AI世界,這種啟示正在震撼AI世界
评论 (30)
0/200
JohnRoberts
2025年04月18日 12:09:37
DeepSeek's new model is shaking things up, but I'm not sure if it's all that. It's interesting how they're focusing on compute at inference, but I'm still waiting to see real-world results. 🤔💻
0
WalterWhite
2025年04月18日 12:09:37
DeepSeekの新しいモデルは話題になっていますが、正直よくわかりません。推論時の計算に焦点を当てているのは面白いですが、実際の結果を見るまで待ちます。🤔💻
0
RogerPerez
2025年04月18日 12:09:37
DeepSeek의 새로운 모델이 화제가 되고 있지만, 솔직히 잘 모르겠어요. 추론 시의 계산에 집중하는 건 흥미롭지만, 실제 결과를 보기 전까지는 기다려야 할 것 같아요. 🤔💻
0
PatrickMartinez
2025年04月18日 12:09:37
O novo modelo da DeepSeek está causando um impacto, mas não tenho certeza se é tudo isso. É interessante focar no cálculo durante a inferência, mas ainda estou esperando pelos resultados reais. 🤔💻
0
ScottPerez
2025年04月18日 12:09:37
El nuevo modelo de DeepSeek está dando que hablar, pero no estoy seguro de que sea para tanto. Es interesante que se enfoquen en el cálculo durante la inferencia, pero aún espero ver resultados reales. 🤔💻
0
SophiaCampbell
2025年04月18日 17:57:57
DeepSeek really shook the AI world with their new model! Nvidia's stock took a hit, but honestly, it's exciting to see such big moves. It's like watching a sci-fi movie unfold in real-time. Can't wait to see where this leads, but more compute at inference? Sounds pricey! 🚀
0






AI行业处于不断变化的状态,2025年带来了一些改变游戏规则的发展,这些发展正在震撼。当中国人工智能实验室DeepSeek以新型号降低了重磅炸弹,导致NVIDIA股票下跌17%并影响了其他AI数据中心股票时,一次重大改组。 DeepSeek模型的嗡嗡声?它以其他竞争对手为代价的一小部分提供一流的表现,激发了这对AI数据中心未来意味着什么的风暴。
但是,要真正了解DeepSeek的所作所为,我们需要缩小并查看更大的情况。人工智能世界正在努力解决培训数据的稀缺性。大型玩家已经在大多数公共互联网数据中咀嚼,这意味着我们正在训练前的改进。结果,该行业向“测试时间计算”(TTC)转移了齿轮。将其视为AI模型花点时间“思考”之前,就像Openai的“ O”系列一样。希望TTC能够提供与曾经预先培训相同的扩展改进,可能会带来下一个大浪潮的AI突破。
这些转变标志着两个重大变化:首先,较小的预算实验室正在游戏中,推出了尖端的型号。其次,TTC已成为推动AI向前发展的新领域。让我们分解这些趋势以及它们对AI景观和市场的意义。
对AI行业的影响
我们认为,转移到TTC的转移以及推理模型之间的竞争中的竞争可以重塑多个方面的AI景观:硬件,云平台,基础模型和企业软件。
1。硬件(GPU,专用芯片和计算基础架构)
向TTC的转变可能会改变硬件AI公司的需求以及如何管理它。他们没有将资金投入到越来越多的GPU集群中进行培训,而是开始专注于加强其应对TTC需求的推理能力。尽管GPU对于推断仍然至关重要,但训练和推理工作负载之间的差异可能会影响这些芯片的设置和使用方式。由于推理工作负载更加不可预测和“尖峰”,因此为容量计划的计划可能会变得更加棘手。
我们还认为,这种转变可以推动专门为低延迟推断(例如ASIC)设计的硬件市场。随着TTC比训练能力更为重要,通用GPU的统治可能开始减少,为专门推理芯片制造商打开了大门。
2。云平台:高标准(AWS,Azure,GCP)和云计算
除准确性问题外,在企业中采用AI的一个主要障碍是推论API的不可靠性。响应时间不一致,速率限制和并发请求的麻烦可能是一个真正的头痛。 TTC可以使这些问题变得更糟。在这种情况下,可以保证要解决这些问题的高质量服务(QoS)的云提供商可能会大大增加。
有趣的是,即使新方法可能会提高AI效率,但它们可能不会降低对硬件的需求。遵循杰文斯(Jevons)的悖论,在更高的效率中导致更多的消耗,更有效的推理模型可以推动更多的开发人员使用推理模型,从而提高了计算能力的需求。我们认为,最近的模型改进可能会促使人们对云AI计算的需求更多,包括推理和较小的专业模型培训。
3。基础模型提供商(OpenAI,人类,cohere,Deepseek,Mistral)
如果像DeepSeek这样的新进入者可以以一小部分成本与大型枪支对手,那么专有的预训练模型的据点可能会开始崩溃。我们还可以期望TTC在变压器模型中有更多的创新,正如DeepSeek所表明的那样,这些创新可能来自AI通常的嫌疑犯以外的意外地方。
4。企业AI采用和SaaS(应用程序层)
鉴于DeepSeek在中国的根源,从安全性和隐私的角度来看,他们的产品肯定会进行审查。他们的中国API和聊天机器人服务不太可能与美国,加拿大或其他西方国家的企业AI客户相处。许多公司已经在阻止DeepSeek的网站和应用程序。即使由西方数据中心的第三方主持,DeepSeek的模型也可能面临审查,这可能会限制其在企业中的采用。研究人员正在标记诸如越狱,偏见和有害内容产生的问题。尽管某些企业可能会尝试使用DeepSeek的模型,但由于这些担忧,广泛采用似乎不太可能。
另一方面,垂直专业化正在获得地面。过去,建立在基础模型上的垂直应用都是关于创建量身定制的工作流程。在调整这些特定用例的通用模型中,诸如检索型生成(RAG),模型路由,功能调用和护栏之类的技术一直是关键。但是一直担心,基础模型的重大改进可能会使这些应用程序过时。山姆·奥特曼(Sam Altman)曾警告说,模型能力的巨大飞跃可以“蒸蒸日上”这些创新。
但是,如果我们看到火车时间计算的平稳性,那么快速超越的威胁就会减少。在TTC优化的模型性能改进的世界中,可能会出现新的机会,即应用程序层玩家。诸如结构化迅速优化,潜伏感知的推理策略和有效抽样技术之类的创新可以在特定的垂直领域提供巨大的性能。
这些改进与以推理为重点的模型(如OpenAI的GPT-4O和DeepSeek-R1)特别相关,这些模型可能需要几秒钟才能做出回应。在实时应用中,降低特定领域内的潜伏期和提高推理质量可能会带来竞争优势。结果,具有深层领域知识的公司可能在优化推论效率和微调产出方面发挥着至关重要的作用。
DeepSeek的工作表明,我们正不再依靠更多的预培训来提高模型质量。相反,TTC变得越来越重要。虽然尚不清楚由于审查而在企业软件中是否会广泛采用DeepSeek的模型,但它们对改善其他模型的影响越来越明显。
我们认为,DeepSeek的创新正在推动已建立的AI实验室采用类似的技术,从而补充了他们现有的硬件优势。预测的模型成本下降似乎在推动更多的模型使用情况,这符合Jevons悖论模式。
Pashootan Vaezipoor是乔治亚语的技术负责人。



DeepSeek's new model is shaking things up, but I'm not sure if it's all that. It's interesting how they're focusing on compute at inference, but I'm still waiting to see real-world results. 🤔💻




DeepSeekの新しいモデルは話題になっていますが、正直よくわかりません。推論時の計算に焦点を当てているのは面白いですが、実際の結果を見るまで待ちます。🤔💻




DeepSeek의 새로운 모델이 화제가 되고 있지만, 솔직히 잘 모르겠어요. 추론 시의 계산에 집중하는 건 흥미롭지만, 실제 결과를 보기 전까지는 기다려야 할 것 같아요. 🤔💻




O novo modelo da DeepSeek está causando um impacto, mas não tenho certeza se é tudo isso. É interessante focar no cálculo durante a inferência, mas ainda estou esperando pelos resultados reais. 🤔💻




El nuevo modelo de DeepSeek está dando que hablar, pero no estoy seguro de que sea para tanto. Es interesante que se enfoquen en el cálculo durante la inferencia, pero aún espero ver resultados reales. 🤔💻




DeepSeek really shook the AI world with their new model! Nvidia's stock took a hit, but honestly, it's exciting to see such big moves. It's like watching a sci-fi movie unfold in real-time. Can't wait to see where this leads, but more compute at inference? Sounds pricey! 🚀












