DeepSeek搖動AI行業:下一個AI LEAP可能取決於推理時的計算增加,而不是更多的數據

人工智慧產業正處於持續變動的狀態,2025年帶來了一些改變遊戲規則的發展,震撼了整個行業。一個重大變動發生在中國人工智慧實驗室DeepSeek發布了一款新模型,導致Nvidia股價下跌17%,並影響了其他人工智慧數據中心股票。圍繞DeepSeek模型的熱議是什麼?它以相較於美國競爭對手低得多的成本提供了頂尖性能,引發了關於人工智慧數據中心未來走向的熱烈討論。
但要真正理解DeepSeek的作為,我們需要拉遠視角,看看更大的圖景。人工智慧世界正面臨訓練數據稀缺的挑戰。大型企業已經用盡了大部分公開網路數據,這意味著我們在預訓練改進方面正面臨瓶頸。因此,產業正轉向「測試時計算」(TTC)。可以將其想像為人工智慧模型在回答前「思考」片刻,就像OpenAI的「o」系列。業界希望TTC能提供與預訓練相同的擴展改進潛力,或許將迎來人工智慧突破的下一波浪潮。
這些轉變預示著兩個重大變化:首先,低預算實驗室現在也能參與競爭,推出尖端模型。其次,TTC正成為推動人工智慧進步的新前沿。讓我們來分析這些趨勢以及它們對人工智慧格局和市場的可能影響。
對人工智慧產業的影響
我們相信,轉向TTC以及推理模型間競爭的加劇,可能在多個面向重塑人工智慧格局:硬體、雲端平台、基礎模型和企業軟體。
1. 硬體(GPU、專用晶片和計算基礎設施)
轉向TTC可能改變人工智慧公司所需的硬體以及管理方式。他們可能不再將資金投入於越來越大的GPU集群用於訓練,而是更專注於增強推理能力以應對TTC需求。雖然GPU對於推理仍至關重要,但訓練與推理工作負載的差異可能影響這些晶片的設置和使用方式。由於推理工作負載更不可預測且呈「尖峰」特性,容量規劃可能變得更具挑戰性。
我們也認為,這一轉變可能推動專為低延遲推理設計的硬體市場,例如ASIC。隨著TTC比訓練容量更為關鍵,通用GPU的霸主地位可能開始動搖,為專用推理晶片製造商開啟機會。
2. 雲端平台:超大規模雲(AWS、Azure、GCP)與雲端計算
企業採用人工智慧的一大障礙,除了準確性問題外,是推理API的不可靠性。諸如響應時間不一致、速率限制以及並發請求的問題可能令人頭痛。TTC可能使這些問題更嚴重。在這種情況下,能保證高服務品質(QoS)的雲端供應商將具有顯著優勢。
有趣的是,即使新方法可能使人工智慧更有效率,卻不一定會降低對硬體的需求。根據Jevons悖論,效率提升會導致更多消費,更高效的推理模型可能吸引更多開發者使用推理模型,從而增加對計算能力的需求。我們認為,最近的模型改進可能刺激對雲端人工智慧計算的需求,無論是用於推理還是較小型、專業化的模型訓練。
3. 基礎模型提供商(OpenAI、Anthropic、Cohere、DeepSeek、Mistral)
如果像DeepSeek這樣的新進者能以低成本與巨頭競爭,專有預訓練模型的霸權可能開始崩解。我們也可以期待變壓器模型在TTC方面的更多創新,正如DeepSeek所示,這些創新可能來自人工智慧領域中意想不到的地方,而非傳統大廠。
4. 企業人工智慧採用與SaaS(應用層)
鑑於DeepSeek的中國背景,其產品可能會持續受到安全與隱私方面的審查。其基於中國的API和聊天機器人服務不太可能在美國、加拿大或其他西方國家的企業人工智慧客戶中流行。許多公司已封鎖DeepSeek的網站和應用程式。即使由第三方在西方數據中心託管,DeepSeek的模型仍可能面臨審查,這可能限制其在企業中的採用。研究人員已指出諸如越獄、偏見和有害內容生成等問題。雖然一些企業可能會嘗試使用DeepSeek的模型,但由於這些顧慮,廣泛採用似乎不太可能。
另一方面,垂直專業化正逐漸興起。過去,基於基礎模型的垂直應用主要專注於打造量身定制的工作流程。諸如檢索增強生成(RAG)、模型路由、函數調用和防護措施等技術,一直是為特定用例調整通用模型的關鍵。但始終存在一個隱憂,即基礎模型的重大改進可能使這些應用過時。Sam Altman曾警告,模型能力的巨大飛躍可能「碾壓」這些創新。
然而,如果訓練時計算增益已達高原,被迅速超越的威脅將減輕。在模型性能改進來自TTC優化的世界中,應用層玩家可能迎來新機遇。諸如結構化提示優化、延遲感知推理策略和高效抽樣技術等創新,可能在特定垂直領域提供顯著的性能提升。
這些改進對於專注於推理的模型尤其重要,例如OpenAI的GPT-4o和DeepSeek-R1,這些模型可能需要數秒鐘才能回應。在即時應用中,降低延遲並提升特定領域內的推理品質可能帶來競爭優勢。因此,擁有深厚領域知識的公司可能在優化推理效率和微調輸出方面扮演關鍵角色。
DeepSeek的工作表明,我們正在遠離僅依賴更多預訓練來提升模型品質。相反,TTC正變得越來越重要。雖然DeepSeek的模型是否會在企業軟體中被廣泛採用尚不清楚,但它們對其他模型改進的影響正變得更加顯著。
我們相信,DeepSeek的創新正推動既有的人工智慧實驗室採用類似技術,補充其現有的硬體優勢。預測的模型成本下降似乎正在推動更多模型使用,符合Jevons悖論的模式。
Pashootan Vaezipoor 是 Georgian 的技術負責人。
相關文章
DeepSeek 推出可與前沿系統匹敵的人工智慧模型
中國人工智慧實驗室 DeepSeek 已發布其最新大型語言模型 DeepSeek V4 的兩個預覽版本,這是對去年 V3.2 模型及其配套的 R1 推理模型的備受期待的更新,該模型曾在人工智慧界引起巨大迴響。該公司表示,DeepSeek V4 Flash 與 V4 Pro 均屬專家混合模型,各自具備 100 萬個標記的上下文視窗——足以處理提示語中的龐大程式碼庫或文件。此專家混合方法會針對每項任務
DeepSeek V3.2 人工智慧模型以最低運算成本實現頂尖效能
當大型科技公司投入數十億美元計算資源開發尖端AI模型時,中國的DeepSeek憑藉更聰明的策略而非規模優勢達成了同等成果。DeepSeek V3.2模型在推理基準測試中媲美OpenAI的GPT-5,卻僅耗費「更少的總訓練浮點運算次數」——這項突破或將重新定義業界構建複雜人工智慧的途徑。對企業而言,此版本釋出表明頂尖AI能力未必需要頂尖運算預算。DeepSeek V3.2的開源特性使組織能在掌控部署
安全主管敦促迅速監管人工智能,指出 DeepSeek 等工具的風險
安全作業中心,尤其是首席資訊安全官 (CISO) 對於來自中國的人工智慧巨擘 DeepSeek 的憂慮與日俱增。雖然人工智慧起初被讚譽為企業效率與創新的突破,但現在卻讓領導企業防禦的人員感到極度不安。絕大多數(81%)的英國 CISO 呼籲政府立即對中國的 AI 聊天機進行監管。他們警告說,如果不迅速採取行動,該工具可能會引發全國性的網路安全危機。這種憂慮並非基於猜測,而是直接源自於該技術不透明的
相關專題推薦
評論 (37)
0/500
Interessant, dass jetzt die Rechenleistung beim Inferenz wichtiger wird als mehr Daten. Aber ist das wirklich nachhaltig? Die Energiebilanz dieser riesigen Modelle macht mir Sorgen. Die Aktienkurse von Nvidia & Co. reagieren ja schon extrem auf solche News. 🧐
Interessant, dass jetzt die Rechenleistung beim Inferencing als Engpass gesehen wird. Aber irgendwie frage ich mich, ob das nicht nur die nächste Runde im Hardware-Wettlauf einläutet. Nvidia-Aktienkurse als Indikator für KI-Fortschritt zu nehmen finde ich etwas kurzsichtig 🤔 Die eigentliche Frage ist doch: Wer kann sich diese Rechenpower überhaupt leisten? Kleine Labs werden da noch weiter abgehängt.
DeepSeek's new model sounds like a real game-changer! A 17% drop in Nvidia's stock is wild—makes me wonder how much compute power is actually driving these AI leaps. Curious to see if this sparks a race for better inference tech! 🚀
DeepSeek's new model sounds like a game-changer! 🤯 I'm curious how this shift to more compute at inference will play out—could it make AI more accessible or just widen the gap between big players?

人工智慧產業正處於持續變動的狀態,2025年帶來了一些改變遊戲規則的發展,震撼了整個行業。一個重大變動發生在中國人工智慧實驗室DeepSeek發布了一款新模型,導致Nvidia股價下跌17%,並影響了其他人工智慧數據中心股票。圍繞DeepSeek模型的熱議是什麼?它以相較於美國競爭對手低得多的成本提供了頂尖性能,引發了關於人工智慧數據中心未來走向的熱烈討論。
但要真正理解DeepSeek的作為,我們需要拉遠視角,看看更大的圖景。人工智慧世界正面臨訓練數據稀缺的挑戰。大型企業已經用盡了大部分公開網路數據,這意味著我們在預訓練改進方面正面臨瓶頸。因此,產業正轉向「測試時計算」(TTC)。可以將其想像為人工智慧模型在回答前「思考」片刻,就像OpenAI的「o」系列。業界希望TTC能提供與預訓練相同的擴展改進潛力,或許將迎來人工智慧突破的下一波浪潮。
這些轉變預示著兩個重大變化:首先,低預算實驗室現在也能參與競爭,推出尖端模型。其次,TTC正成為推動人工智慧進步的新前沿。讓我們來分析這些趨勢以及它們對人工智慧格局和市場的可能影響。
對人工智慧產業的影響
我們相信,轉向TTC以及推理模型間競爭的加劇,可能在多個面向重塑人工智慧格局:硬體、雲端平台、基礎模型和企業軟體。
1. 硬體(GPU、專用晶片和計算基礎設施)
轉向TTC可能改變人工智慧公司所需的硬體以及管理方式。他們可能不再將資金投入於越來越大的GPU集群用於訓練,而是更專注於增強推理能力以應對TTC需求。雖然GPU對於推理仍至關重要,但訓練與推理工作負載的差異可能影響這些晶片的設置和使用方式。由於推理工作負載更不可預測且呈「尖峰」特性,容量規劃可能變得更具挑戰性。
我們也認為,這一轉變可能推動專為低延遲推理設計的硬體市場,例如ASIC。隨著TTC比訓練容量更為關鍵,通用GPU的霸主地位可能開始動搖,為專用推理晶片製造商開啟機會。
2. 雲端平台:超大規模雲(AWS、Azure、GCP)與雲端計算
企業採用人工智慧的一大障礙,除了準確性問題外,是推理API的不可靠性。諸如響應時間不一致、速率限制以及並發請求的問題可能令人頭痛。TTC可能使這些問題更嚴重。在這種情況下,能保證高服務品質(QoS)的雲端供應商將具有顯著優勢。
有趣的是,即使新方法可能使人工智慧更有效率,卻不一定會降低對硬體的需求。根據Jevons悖論,效率提升會導致更多消費,更高效的推理模型可能吸引更多開發者使用推理模型,從而增加對計算能力的需求。我們認為,最近的模型改進可能刺激對雲端人工智慧計算的需求,無論是用於推理還是較小型、專業化的模型訓練。
3. 基礎模型提供商(OpenAI、Anthropic、Cohere、DeepSeek、Mistral)
如果像DeepSeek這樣的新進者能以低成本與巨頭競爭,專有預訓練模型的霸權可能開始崩解。我們也可以期待變壓器模型在TTC方面的更多創新,正如DeepSeek所示,這些創新可能來自人工智慧領域中意想不到的地方,而非傳統大廠。
4. 企業人工智慧採用與SaaS(應用層)
鑑於DeepSeek的中國背景,其產品可能會持續受到安全與隱私方面的審查。其基於中國的API和聊天機器人服務不太可能在美國、加拿大或其他西方國家的企業人工智慧客戶中流行。許多公司已封鎖DeepSeek的網站和應用程式。即使由第三方在西方數據中心託管,DeepSeek的模型仍可能面臨審查,這可能限制其在企業中的採用。研究人員已指出諸如越獄、偏見和有害內容生成等問題。雖然一些企業可能會嘗試使用DeepSeek的模型,但由於這些顧慮,廣泛採用似乎不太可能。
另一方面,垂直專業化正逐漸興起。過去,基於基礎模型的垂直應用主要專注於打造量身定制的工作流程。諸如檢索增強生成(RAG)、模型路由、函數調用和防護措施等技術,一直是為特定用例調整通用模型的關鍵。但始終存在一個隱憂,即基礎模型的重大改進可能使這些應用過時。Sam Altman曾警告,模型能力的巨大飛躍可能「碾壓」這些創新。
然而,如果訓練時計算增益已達高原,被迅速超越的威脅將減輕。在模型性能改進來自TTC優化的世界中,應用層玩家可能迎來新機遇。諸如結構化提示優化、延遲感知推理策略和高效抽樣技術等創新,可能在特定垂直領域提供顯著的性能提升。
這些改進對於專注於推理的模型尤其重要,例如OpenAI的GPT-4o和DeepSeek-R1,這些模型可能需要數秒鐘才能回應。在即時應用中,降低延遲並提升特定領域內的推理品質可能帶來競爭優勢。因此,擁有深厚領域知識的公司可能在優化推理效率和微調輸出方面扮演關鍵角色。
DeepSeek的工作表明,我們正在遠離僅依賴更多預訓練來提升模型品質。相反,TTC正變得越來越重要。雖然DeepSeek的模型是否會在企業軟體中被廣泛採用尚不清楚,但它們對其他模型改進的影響正變得更加顯著。
我們相信,DeepSeek的創新正推動既有的人工智慧實驗室採用類似技術,補充其現有的硬體優勢。預測的模型成本下降似乎正在推動更多模型使用,符合Jevons悖論的模式。
Pashootan Vaezipoor 是 Georgian 的技術負責人。
DeepSeek 推出可與前沿系統匹敵的人工智慧模型
中國人工智慧實驗室 DeepSeek 已發布其最新大型語言模型 DeepSeek V4 的兩個預覽版本,這是對去年 V3.2 模型及其配套的 R1 推理模型的備受期待的更新,該模型曾在人工智慧界引起巨大迴響。該公司表示,DeepSeek V4 Flash 與 V4 Pro 均屬專家混合模型,各自具備 100 萬個標記的上下文視窗——足以處理提示語中的龐大程式碼庫或文件。此專家混合方法會針對每項任務
DeepSeek V3.2 人工智慧模型以最低運算成本實現頂尖效能
當大型科技公司投入數十億美元計算資源開發尖端AI模型時,中國的DeepSeek憑藉更聰明的策略而非規模優勢達成了同等成果。DeepSeek V3.2模型在推理基準測試中媲美OpenAI的GPT-5,卻僅耗費「更少的總訓練浮點運算次數」——這項突破或將重新定義業界構建複雜人工智慧的途徑。對企業而言,此版本釋出表明頂尖AI能力未必需要頂尖運算預算。DeepSeek V3.2的開源特性使組織能在掌控部署
安全主管敦促迅速監管人工智能,指出 DeepSeek 等工具的風險
安全作業中心,尤其是首席資訊安全官 (CISO) 對於來自中國的人工智慧巨擘 DeepSeek 的憂慮與日俱增。雖然人工智慧起初被讚譽為企業效率與創新的突破,但現在卻讓領導企業防禦的人員感到極度不安。絕大多數(81%)的英國 CISO 呼籲政府立即對中國的 AI 聊天機進行監管。他們警告說,如果不迅速採取行動,該工具可能會引發全國性的網路安全危機。這種憂慮並非基於猜測,而是直接源自於該技術不透明的
Interessant, dass jetzt die Rechenleistung beim Inferenz wichtiger wird als mehr Daten. Aber ist das wirklich nachhaltig? Die Energiebilanz dieser riesigen Modelle macht mir Sorgen. Die Aktienkurse von Nvidia & Co. reagieren ja schon extrem auf solche News. 🧐
Interessant, dass jetzt die Rechenleistung beim Inferencing als Engpass gesehen wird. Aber irgendwie frage ich mich, ob das nicht nur die nächste Runde im Hardware-Wettlauf einläutet. Nvidia-Aktienkurse als Indikator für KI-Fortschritt zu nehmen finde ich etwas kurzsichtig 🤔 Die eigentliche Frage ist doch: Wer kann sich diese Rechenpower überhaupt leisten? Kleine Labs werden da noch weiter abgehängt.
DeepSeek's new model sounds like a real game-changer! A 17% drop in Nvidia's stock is wild—makes me wonder how much compute power is actually driving these AI leaps. Curious to see if this sparks a race for better inference tech! 🚀
DeepSeek's new model sounds like a game-changer! 🤯 I'm curious how this shift to more compute at inference will play out—could it make AI more accessible or just widen the gap between big players?





首頁






