ByteDance 的開放原始碼種子-OSS-36B 機型支援 512K 令牌內容

在白宮加入這個熱門社群媒體平台之後,TikTok 再次成為新聞焦點,但其母公司,中國大型科技公司 ByteDance 也有驚喜宣布。
該公司的 AI 研究單位 Seed Team 今天在 AI 代碼倉庫 Hugging Face 上推出 Seed-OS-36B。
Seed-OSS-36B 是一系列全新的開放源碼大型語言模型 (LLM) ,專為複雜的推理和開發者友善的使用而打造,其特色是比許多美國開發的競爭模型--包括 OpenAI 和 Anthropic 的領先模型--擁有更長的標記上下文。
該系列包括三種主要變體:
- Seed-OSS-36B-Base 與合成資料
- 不含合成資料的 Seed-OSS-36B-Base
- Seed-OSS-36B-Instruct
Seed 團隊發行了 Seed-OSS-36B-Base 模型的合成與非合成版本,目的在於平衡真實世界的效能與研究適應性。
使用補充指令資料訓練的合成資料版本,在已建立的基準上取得較強的結果,並擬作為效能較高的一般用途模型。
相反地,非合成模型則移除這些增強功能,提供更清晰的基礎,減少合成指令資料可能造成的偏差。
透過提供這兩種變體,研究團隊為實際使用者提供了更好的成果,同時也為研究人員提供了一個無偏差的基線,以研究訓練後的技術。
與此同時,Seed-OSS-36B-Instruct 模型則使用指令資料進行後期訓練,著重於任務執行和指令遵循,而非僅作為基礎模型。
所有這三種模型都以 Apache-2.0 授權,允許企業研究人員和開發人員自由使用、修改和分享。
這意味著它們可以整合到商業應用程式中,無論是用於內部運作或面向客戶的服務,ByteDance 都不會收取授權費或 API 費用。
這跟隨了 2025 年中中國公司推出先進開源模型的趨勢,而 OpenAI 也努力跟上自己最近發布的開源 gpt-oss duet 的步伐。
Seed Team 設計的 Seed-OSS 適合全球使用,強調其在推理、任務導向功能和多語言環境中的適應性。
Seed Team 成立於 2023 年,專注於建立適合研究與實際應用的基礎模型。
設計與核心功能
Seed-OSS-36B 的結構整合了公認的設計元素,例如因果語言建模、群組化查詢注意力、SwiGLU 啟動、RMSNorm 和 RoPE 位置編碼。
每個模型包含分佈在 64 層的 360 億個參數,並支援 155,000 個詞彙。
其標誌性特點在於其固有的長內容容量,可支援高達 512,000 個字元,在處理冗長的文件和邏輯序列時不會降低效能。
這是 OpenAI 新的 GPT-5 系列容量的兩倍,大約相當於 1,600 頁文字的長度,相當於基督教聖經的大小。
另一個突出的特點是思考預算,它允許開發人員定義模型在產生答案之前所應用的推理量。
類似的機制也出現在最近其他的開放原始碼版本中,包括 Nvidia 的 Nemotron-Nano-9B-v2,也可以透過 Hugging Face 取得。
在實際應用上,這可讓團隊根據任務複雜程度和部署效率需求來校準效能。
預算值會以 512 代幣的倍數建議,0 則會啟用直接回應模式。
在第三方基準上的競爭優勢
已公佈的基準結果顯示 Seed-OSS-36B 是表現最佳的大型開源模型之一。尤其是 Instruct 版本,在多個領域都達到最先進的結果。
- 數學與推理:Seed-OSS-36B-Instruct 在 AIME24 獲得 91.7% 的分數,在 BeyondAIME 獲得 65 分,分別代表開放原始碼最先進 (SOTA) 的表現。
- 編碼:在 LiveCodeBench v6 上,Instruct 模型達到 67.4,是另一個 SOTA 標準。
- 長內容能力:在 128K 上下文長度的 RULER 上,它達到 94.6,是所報告的最高開源結果。
- 基本模型效能:合成資料 Base 變體在 MMLU-Pro 獲得 65.1 分,在 MATH 獲得 81.7 分,兩者都是同類型中的領先結果。
非合成 Base 模型雖然在幾個指標上略為落後,但其本身仍具有競爭力。
它在 GPQA-D 上的表現優於合成版本,為研究人員提供了一個更乾淨、指令中立的測試基線。
對於評估開放式替代方案的企業來說,這些結果顯示 Seed-OSS 對於數學密集、編碼和長內容應用具有強大的前景,同時保留了研究情境的彈性。
存取與部署
除了效能之外,Seed 團隊還強調開發人員的存取性。這些模型可透過 Hugging Face Transformers 部署,並以 4 位元和 8 位元格式進行量化,以盡量減少記憶體使用量。
它們也與 vLLM 整合,以提供可擴充的服務,並提供完整的設定範例和 API 伺服器指南。
為了進一步簡化採用程序,該團隊提供了推論、提示自訂和工具整合的腳本。
對於管理小型團隊或在有限預算下運作的技術領導而言,這些資源有助於讓 36 億個參數模型的實驗變得更可行。
授權與企業決策者的注意事項
這些模型可在 Apache-2.0 下提供,因此可在沒有限制性授權的情況下採用,這對於衡量法律和營運因素的團隊而言是一大優勢。
對於評估開放原始碼生態系統的領導者而言,此版本強調三個重點:
- 數學、編碼和長內容推理的頂尖
- 基準
- 結果
- 。高效能合成訓練模型與無偏見研究基線之間的平衡。
- 可存取性功能可降低操作複雜度,以簡化工程單位。
ByteDance 的 Seed Team 透過結合高效能與開放授權下的適應性部署,擴大了公司、研究人員與開發人員的選擇。
相關文章
人工智慧揭露新聞內容中的隱藏議程
ChatGPT風格的模型現正接受訓練,以揭示新聞文章背後的潛在觀點——即使該觀點被隱藏在引語、框架或(有時虛偽的)中立表象之下。透過將文章拆解為標題、導語和引語等段落,新型系統能識別長篇專業新聞報導中的偏見。 這種掌握作者或發言者真實立場的能力——學術文獻中稱為立場檢測——正挑戰語言解讀中最複雜的難題之一:從可能刻意設計用以隱藏或模糊意圖的內容中辨識真實意圖。從喬納森·斯威夫特的《一個謙卑的建議》
TikTok推出切換功能,限制動態消息中由人工智慧驅動的內容
TikTok最初是用戶自製影片的聚集地,現正推出新功能讓用戶能調控「為你推薦」動態牆中出現的人工智慧生成內容比例。該平台同時部署更精密的技術,為這類AI創作內容添加標示。這項針對AI生成內容(AIGC)的新控制功能,將整合至TikTok的「管理主題」工具中,協助用戶精準策劃個人化資訊流體驗。 TikTok在部落格文章中說明:「現有的主題管理功能已讓用戶能微調超過10類內容的曝光頻率,例如舞
Anthropic的Claude 4.1在編碼基準測試中表現優異,搶先GPT-5發布
Anthropic於週一發布其旗艦人工智慧模型的升級版本,為軟體工程任務的效能樹立新標竿。此舉使這家人工智慧新創企業得以捍衛其在利潤豐厚的編碼領域的霸主地位,同時預見來自OpenAI的全新競爭挑戰。新版Claude Opus 4.1模型在SWE-bench Verified測試中獲得74.5%的分數,該測試是評估AI系統解決真實世界軟體問題能力的權威基準。此成績超越OpenAI o3模型的69.1
相關專題推薦
評論 (0)
0/500

在白宮加入這個熱門社群媒體平台之後,TikTok 再次成為新聞焦點,但其母公司,中國大型科技公司 ByteDance 也有驚喜宣布。
該公司的 AI 研究單位 Seed Team 今天在 AI 代碼倉庫 Hugging Face 上推出 Seed-OS-36B。
Seed-OSS-36B 是一系列全新的開放源碼大型語言模型 (LLM) ,專為複雜的推理和開發者友善的使用而打造,其特色是比許多美國開發的競爭模型--包括 OpenAI 和 Anthropic 的領先模型--擁有更長的標記上下文。
該系列包括三種主要變體:
- Seed-OSS-36B-Base 與合成資料
- 不含合成資料的 Seed-OSS-36B-Base
- Seed-OSS-36B-Instruct
Seed 團隊發行了 Seed-OSS-36B-Base 模型的合成與非合成版本,目的在於平衡真實世界的效能與研究適應性。
使用補充指令資料訓練的合成資料版本,在已建立的基準上取得較強的結果,並擬作為效能較高的一般用途模型。
相反地,非合成模型則移除這些增強功能,提供更清晰的基礎,減少合成指令資料可能造成的偏差。
透過提供這兩種變體,研究團隊為實際使用者提供了更好的成果,同時也為研究人員提供了一個無偏差的基線,以研究訓練後的技術。
與此同時,Seed-OSS-36B-Instruct 模型則使用指令資料進行後期訓練,著重於任務執行和指令遵循,而非僅作為基礎模型。
所有這三種模型都以 Apache-2.0 授權,允許企業研究人員和開發人員自由使用、修改和分享。
這意味著它們可以整合到商業應用程式中,無論是用於內部運作或面向客戶的服務,ByteDance 都不會收取授權費或 API 費用。
這跟隨了 2025 年中中國公司推出先進開源模型的趨勢,而 OpenAI 也努力跟上自己最近發布的開源 gpt-oss duet 的步伐。
Seed Team 設計的 Seed-OSS 適合全球使用,強調其在推理、任務導向功能和多語言環境中的適應性。
Seed Team 成立於 2023 年,專注於建立適合研究與實際應用的基礎模型。
設計與核心功能
Seed-OSS-36B 的結構整合了公認的設計元素,例如因果語言建模、群組化查詢注意力、SwiGLU 啟動、RMSNorm 和 RoPE 位置編碼。
每個模型包含分佈在 64 層的 360 億個參數,並支援 155,000 個詞彙。
其標誌性特點在於其固有的長內容容量,可支援高達 512,000 個字元,在處理冗長的文件和邏輯序列時不會降低效能。
這是 OpenAI 新的 GPT-5 系列容量的兩倍,大約相當於 1,600 頁文字的長度,相當於基督教聖經的大小。
另一個突出的特點是思考預算,它允許開發人員定義模型在產生答案之前所應用的推理量。
類似的機制也出現在最近其他的開放原始碼版本中,包括 Nvidia 的 Nemotron-Nano-9B-v2,也可以透過 Hugging Face 取得。
在實際應用上,這可讓團隊根據任務複雜程度和部署效率需求來校準效能。
預算值會以 512 代幣的倍數建議,0 則會啟用直接回應模式。
在第三方基準上的競爭優勢
已公佈的基準結果顯示 Seed-OSS-36B 是表現最佳的大型開源模型之一。尤其是 Instruct 版本,在多個領域都達到最先進的結果。
- 數學與推理:Seed-OSS-36B-Instruct 在 AIME24 獲得 91.7% 的分數,在 BeyondAIME 獲得 65 分,分別代表開放原始碼最先進 (SOTA) 的表現。
- 編碼:在 LiveCodeBench v6 上,Instruct 模型達到 67.4,是另一個 SOTA 標準。
- 長內容能力:在 128K 上下文長度的 RULER 上,它達到 94.6,是所報告的最高開源結果。
- 基本模型效能:合成資料 Base 變體在 MMLU-Pro 獲得 65.1 分,在 MATH 獲得 81.7 分,兩者都是同類型中的領先結果。
非合成 Base 模型雖然在幾個指標上略為落後,但其本身仍具有競爭力。
它在 GPQA-D 上的表現優於合成版本,為研究人員提供了一個更乾淨、指令中立的測試基線。
對於評估開放式替代方案的企業來說,這些結果顯示 Seed-OSS 對於數學密集、編碼和長內容應用具有強大的前景,同時保留了研究情境的彈性。
存取與部署
除了效能之外,Seed 團隊還強調開發人員的存取性。這些模型可透過 Hugging Face Transformers 部署,並以 4 位元和 8 位元格式進行量化,以盡量減少記憶體使用量。
它們也與 vLLM 整合,以提供可擴充的服務,並提供完整的設定範例和 API 伺服器指南。
為了進一步簡化採用程序,該團隊提供了推論、提示自訂和工具整合的腳本。
對於管理小型團隊或在有限預算下運作的技術領導而言,這些資源有助於讓 36 億個參數模型的實驗變得更可行。
授權與企業決策者的注意事項
這些模型可在 Apache-2.0 下提供,因此可在沒有限制性授權的情況下採用,這對於衡量法律和營運因素的團隊而言是一大優勢。
對於評估開放原始碼生態系統的領導者而言,此版本強調三個重點:
- 數學、編碼和長內容推理的頂尖
- 基準
- 結果
- 。高效能合成訓練模型與無偏見研究基線之間的平衡。
- 可存取性功能可降低操作複雜度,以簡化工程單位。
ByteDance 的 Seed Team 透過結合高效能與開放授權下的適應性部署,擴大了公司、研究人員與開發人員的選擇。
人工智慧揭露新聞內容中的隱藏議程
ChatGPT風格的模型現正接受訓練,以揭示新聞文章背後的潛在觀點——即使該觀點被隱藏在引語、框架或(有時虛偽的)中立表象之下。透過將文章拆解為標題、導語和引語等段落,新型系統能識別長篇專業新聞報導中的偏見。 這種掌握作者或發言者真實立場的能力——學術文獻中稱為立場檢測——正挑戰語言解讀中最複雜的難題之一:從可能刻意設計用以隱藏或模糊意圖的內容中辨識真實意圖。從喬納森·斯威夫特的《一個謙卑的建議》
TikTok推出切換功能,限制動態消息中由人工智慧驅動的內容
TikTok最初是用戶自製影片的聚集地,現正推出新功能讓用戶能調控「為你推薦」動態牆中出現的人工智慧生成內容比例。該平台同時部署更精密的技術,為這類AI創作內容添加標示。這項針對AI生成內容(AIGC)的新控制功能,將整合至TikTok的「管理主題」工具中,協助用戶精準策劃個人化資訊流體驗。 TikTok在部落格文章中說明:「現有的主題管理功能已讓用戶能微調超過10類內容的曝光頻率,例如舞
Anthropic的Claude 4.1在編碼基準測試中表現優異,搶先GPT-5發布
Anthropic於週一發布其旗艦人工智慧模型的升級版本,為軟體工程任務的效能樹立新標竿。此舉使這家人工智慧新創企業得以捍衛其在利潤豐厚的編碼領域的霸主地位,同時預見來自OpenAI的全新競爭挑戰。新版Claude Opus 4.1模型在SWE-bench Verified測試中獲得74.5%的分數,該測試是評估AI系統解決真實世界軟體問題能力的權威基準。此成績超越OpenAI o3模型的69.1





首頁






