選項
首頁
新聞
字節跳動推出Seed-Thinking-v1.5 AI模型以提升推理能力

字節跳動推出Seed-Thinking-v1.5 AI模型以提升推理能力

2025-08-23
0

先進推理AI的競賽始於2024年9月OpenAI的o1模型,隨著2025年1月DeepSeek的R1推出而加速。

主要AI開發商現正競相打造更快、更具成本效益的推理AI模型,通過思維鏈過程提供精確、深思熟慮的回應,確保回答前的準確性。

字節跳動,TikTok的母公司,推出Seed-Thinking-v1.5,一款在技術論文中概述的新大型語言模型(LLM),旨在增強STEM及一般領域的推理能力。

該模型尚未公開,且其授權方式—無論是專有、開源或混合—仍未透露。然而,該論文提供了值得在發布前探索的關鍵見解。

繼Meta的Llama 4和Mistral的Mixtral之後,Seed-Thinking-v1.5採用了專家混合(MoE)架構。

這種方法通過將多個專精模型整合為一體來提升效率,每個模型專注於不同領域。

Seed-Thinking-v1.5僅使用其2000億參數中的200億,優化性能。

字節跳動在GitHub發布的論文強調該模型專注於結構化推理和審慎回應生成。

它超越DeepSeek R1,並在第三方基準測試中與Google的Gemini 2.5 Pro和OpenAI的o3-mini-high競爭,甚至在ARC-AGI基準測試中表現優於它們,該基準是衡量人工通用智能進展的關鍵指標,根據OpenAI的標準,超越了人類在經濟上有價值的任務中的表現。

作為比大型模型更緊湊但強大的替代方案,Seed-Thinking-v1.5通過創新的強化學習、精選訓練數據和先進的AI基礎設施,提供了出色的基準測試結果。

基準測試表現與核心優勢

Seed-Thinking-v1.5在艱難任務中表現出色,在AIME 2024獲得86.7%的分數,在Codeforces上獲得55.0%的pass@8,在GPQA科學基準測試中獲得77.3%,與OpenAI的o3-mini-high和Google的Gemini 2.5 Pro在推理指標上接近或超越。

在非推理任務中,它的人類偏好勝率比DeepSeek R1高出8.0%,顯示出超越邏輯和數學的靈活性。

為應對基準測試飽和問題,字節跳動創建了BeyondAIME,一個更嚴格的數學基準測試,以抵制記憶並更好地評估模型表現。該基準與Codeforces集合將公開發布,以促進未來研究。

訓練數據策略

數據質量在開發Seed-Thinking-v1.5中至關重要。為進行監督微調,精選了40萬個樣本:30萬個可驗證的STEM、邏輯和編碼任務,以及10萬個不可驗證的任務,如創意寫作。

對於強化學習,數據分為:

  • 可驗證問題:從頂尖比賽中精心挑選的10萬個STEM問題和邏輯謎題,由專家驗證。
  • 不可驗證任務:針對開放式提示的人類偏好數據集,通過成對獎勵模型評估。

超過80%的STEM數據專注於高級數學,邏輯任務如數獨和24點謎題根據模型進展進行縮放。

強化學習創新

Seed-Thinking-v1.5使用自定義的actor-critic(VAPO)和策略梯度(DAPO)框架來穩定強化學習,解決長思維鏈場景中的問題。

兩個獎勵模型增強了強化學習監督:

  • Seed-Verifier:基於規則的LLM,確保生成答案與參考答案的數學等價性。
  • Seed-Thinking-Verifier:基於推理的評估器,確保一致性評估,抵禦獎勵操縱。

此雙重系統支持簡單和複雜任務的精確評估。

可擴展基礎設施設計

字節跳動的HybridFlow框架,由Ray集群提供支持,支持高效的大規模訓練,通過訓練與推理共置減少GPU閒置時間。

流式推出系統(SRS)將模型進化與運行時分離,通過異步管理部分生成,將迭代速度提升至三倍。

其他技術包括:

  • 混合精度(FP8)以提升記憶體效率
  • 專家並行和內核自動調整以優化MoE
  • ByteCheckpoint以實現穩健的檢查點
  • AutoTuner以優化並行和記憶體設置

以人為本的評估與應用

在創意寫作、人文學科和一般對話中的人類測試顯示,Seed-Thinking-v1.5超越DeepSeek R1,證明其現實世界的相關性。

團隊指出,在可驗證任務上的訓練增強了對創意領域的泛化能力,這得益於嚴格的數學工作流程。

對技術團隊和企業的影響

對於監督LLM生命週期的技術領導者,Seed-Thinking-v1.5提供了一個將高級推理整合到企業AI系統中的模型。

其模組化訓練,包含可驗證數據集和多階段強化學習,適合需要精確控制的LLM開發團隊。

Seed-Verifier和Seed-Thinking-Verifier增強了可信的獎勵建模,這對面向客戶或受監管的環境至關重要。

對於時間緊迫的團隊,VAPO和動態採樣縮短了迭代週期,簡化了特定任務的微調。

混合基礎設施,包括SRS和FP8優化,提升了訓練吞吐量和硬體效率,適合雲端和本地系統。

該模型的自適應獎勵反饋解決了管理多樣化數據管道的挑戰,確保跨領域的一致性。

對於數據工程師,嚴格的數據過濾和專家驗證的重視凸顯了高質量數據集在提升模型性能方面的價值。

未來展望

由字節跳動的Seed LLM Systems團隊開發,由吳永輝領導並由林海濱公開代表,Seed-Thinking-v1.5在Doubao 1.5 Pro的基礎上,採用共享的RLHF和數據精選技術。

團隊旨在精進強化學習,專注於訓練效率和不可驗證任務的獎勵建模。發布BeyondAIME等基準將推動專注於推理的AI研究的進一步進展。

相關文章
Google 揭露 A2A 協議以增強 AI 代理互操作性 Google 揭露 A2A 協議以增強 AI 代理互操作性 AI 代理處理複雜、重複性的任務,如供應鏈管理和設備採購。隨著組織採用來自不同供應商和框架的代理,這些代理往往變得孤立,無法有效協作。互操作性挑戰持續存在,代理有時會提供矛盾的建議。標準化 AI 工作流程仍然困難,整合代理通常需要中間件,引入額外的複雜性和潛在的故障點。Google 的 A2A 協議標準化 AI 代理協作在 Cloud Next 2025 上,Google 推出了其 Agent2A
Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo與Google Cloud合作為開發者提供免費AI程式碼審查工具 Qodo,一家專注於程式碼品質的以色列AI編碼新創公司,與Google Cloud合作推出夥伴關係,以提升AI生成軟體的完整性。隨著企業越來越依賴AI進行編碼,對強大監督和品質保證工具的需求日益增長。Qodo執行長Itamar Friedman指出,AI生成程式碼現已成為現代開發的核心。「想像一個未來,AI撰寫所有程式碼;人類無法全部審查,」Friedman說。「我們需要系統確保程式碼符合預期價值
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
評論 (0)
0/200
回到頂部
OR