本土品牌表現亮眼:豆寶躋身全球頂尖行列,小米MiMo在數學推理領域拔得頭籌
中國的大型語言模型正迅速從單純的跟隨者,轉變為積極的協作者——甚至在某些領域成為先驅。
3月30日,中國大型語言模型基準評估平台「SuperCLUE」 公佈了2026年3月的評估結果。本次評估涵蓋了來自中國與海外的22款主要模型,測試了數學推理、科學推理及程式碼生成等六項核心能力。結果顯示,以「Doubao」為首的國內模型,現已躋身全球頂尖行列。

全球概況:海外閉源模型仍居領先,豆寶緊追在後
在總體排名中,海外閉源模型持續展現出強大的技術實力:
前三名:Anthropic的Claude-Opus-4.6 、Google的Gemini-3.1-Pro 以及OpenAI的GPT-5.4 分別奪得全球第一、第二和第三名。
國內亮點:字節跳動的「Doubao」(Doubao-Seed-2.0-pro) 以71.53分奪得國內榜首。它不僅穩居全球頂尖行列,更將與GPT-5.4的差距縮小至僅0.95分。
智能代理突破:在代理任務規劃維度上,Doubao 表現優於多款海外模型,躋身全球前五名。
小米表現:MiMo-V2 系列在數學推理方面表現優異
作為進軍 AI 領域的主要智慧型手機製造商,小米集團的 MiMo 系列在本次評測中表現穩定:
數學明星: MiMo-V2-Pro 以 60.67 分的成績躋身領先的閉源模型之列,在數學推理任務中更獲得了84.03分的優異成績。
雙模型入榜:除 Pro 版本外,開源的MiMo-V2-Flash 亦躋身榜單,展現出在程式碼生成等領域的強大潛力。
開源賽道:國產模型全面領先
與閉源模型的激烈競爭不同,國產模型在開源領域已確立明顯優勢:
前三名:包括Kimi-K2.5-Thinking 和Qwen3.5-397B 在內的國產開源模型,包辦了開源排行榜的前三名。
強勢下探:評估數據顯示,國產開源模型明顯優於海外競爭對手,使其成為全球開發者的首選。
結論:從參數大戰邁向實務表現
正如 2026 年 3 月的排名所示,中國的大模型已不僅止於理解中文語境。如今,它們正在邏輯推理和程式碼生成等高難度領域與全球領先者一較高下。隨著Doubao 在排名中嶄露頭角,以及小米 MiMo
相關文章
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。
相關專題推薦
評論 (0)
0/500
中國的大型語言模型正迅速從單純的跟隨者,轉變為積極的協作者——甚至在某些領域成為先驅。
3月30日,中國大型語言模型基準評估

全球概況:海外閉源模型仍居領先,豆寶緊追在後
在總體排名中,海外閉源模型持續展現出強大的技術實力:
前三名:Anthropic的
國內亮點:字節跳動的
智能代理突破:在代理任務規劃維度上
小米表現:MiMo-V2 系列在數學推理方面表現優異
作為進軍 AI 領域的主要智慧型
數學明星:
雙模型入榜:除 Pro 版本外,開源的
開源賽道:國產模型全面領先
與閉源模型的激烈競爭不同,國產模型在開源領域已確立明顯優勢:
前三名:包括
強勢下探:評估數據顯示,國產開源模型明顯優於海外競爭對手,使其成為全球開發者的首選。
結論:從參數大戰邁向實務表現
正如 2026 年 3 月的排名所示,中國的大模型已不僅止於理解中文語境。如今,它們正在邏輯推理和程式碼生成等高難度領域與全球領先者一較高下。隨著
Github Copilot的基於令牌的計費方式引發了開發者的強烈不滿
微軟GitHub Copilot的黃金時代可能即將結束,尤其是對個人使用者而言。該公司正從統一的訂閱費模式轉向基於代幣的計費方式,這可能會大幅增加使用成本。雖然大型企業或許還能承受這種變化,但小型企業和自由職業者可能會發現新的收費機制讓他們的月預算難以承受。這些變更將於6月1日正式生效,屆時使用者將按照工作中消耗的代幣數量來支付費用,而不再是按每次請求收取固定費用。一些開發者受到這一財務變動的影響,在Reddit和X平臺上表達了他們對這種看似過高的成本增加的擔憂。一位Redditor最近寫道:“
SpaceX的IPO申請檔案重點體現了其在衛星網際網路和人工智慧領域的發展雄心
在為即將進行的IPO提交的S-1註冊檔案中,SpaceX公佈了一系列令人矚目的業務資料,這些資料凸顯了其在航空航天通訊和人工智慧領域的強大實力:Starlink使用者數突破1000萬:截至2026年第一季度,全球付費Starlink使用者數量已達到1030萬,這一數字在過去一年內翻了一番。這一增長充分證明了作為全球最大的近地軌道衛星星座,Starlink在寬頻和行動通訊領域的領先地位。目前該衛星網路由大約9600顆衛星組成,這些衛星佔在軌所有活躍衛星總數的65%。Grok與X人工智慧生態體系:通
阿里巴巴Tuhao M890上市,憑藉三重效能優勢開啟晶片-雲-模型-推理的全棧代理時代
2026年5月20日,在阿里雲峰會上,阿里雲宣佈完成了專為“智慧體時代”設計的全棧技術系統升級。這一變革重塑了整個技術體系——從底層晶片和雲平臺到模型與推理方案。此次升級使阿里雲成為一家能夠讓大量智慧體實現24/7連續執行的“AI工廠”,從而超越了單純為人類使用者提供服務的範疇。1. 核心基礎:騰迅振武M890晶片與超級節點伺服器此次升級的核心是騰迅推出的新一代AI晶片——振武M890,該晶片集訓練與推理功能於一體。效能提升:M890擁有144GB的記憶體,其效能是前代產品振武810E的三倍。





首頁






