Hy3 預覽:元重組後的首個開源版本,實用性與代理功能全面提升
4月23日,騰訊的「環元」團隊以開源形式發布了語言模型 Hy3preview。 這款混合專家模型結合了快速與慢速推理機制,總參數達2,950億,有效參數達210億,支援長達256K的上下文長度。它是環源重構後訓練的首個模型,也是環源史上最智能的模型,在複雜推理、指令遵循、上下文學習、程式碼生成、代理能力以及整體推理表現方面均取得顯著提升。
2026年2月,騰訊幻元重構了預訓練與強化學習基礎架構,並確立了三項實現實用價值的指導原則:
1. 系統化能力:與其強調專精化,我們更意識到即使是程式碼代理這類單一應用,也需要推理、長上下文處理、指令遵循、對話、編碼及工具使用等領域的深度協作。
2. 真實評估:超越易被操縱的公開基準測試,我們透過內部開發的題庫、最新考試題組、人工評分、產品專屬群眾測試及其他方法,來評估並提升模型在現實世界中的實效性。
3. 聚焦成本效益:實用性必須與商業可行性相契合。經深度協同設計的模型架構與推論框架,大幅降低了任務成本,使人工智慧既經濟實惠又高效。
Hy3preview 標誌著環源加速追求能解決現實世界問題的實用大型語言模型的起點。
騰訊首席 AI 科學家姚順宇指出,Hy3preview 是環源模型重構的第一步。透過此次開源發布,我們期待獲得社群與用戶的真實反饋,這將有助於完善正式版 Hy3 的實用性。 與此同時,我們持續擴大預訓練與強化學習的規模,不斷提升模型的智能上限。透過與眾多騰訊產品的深度協同設計,我們正穩步提升模型的實務表現,並開始探索專項模型能力。
目前,Hy3preview 已上線於騰雲、Yua、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔及騰訊樂翔。其他主要產品如微信官方帳號、和平精英、騰訊新聞、騰訊選股、騰訊客服及微信閱讀等,也將陸續推出。 此外,Hy3preview 已與 OpenClaw、OpenCode 及 KiloCode 等熱門開源代理框架整合,並上架於騰訊雲的大型模型服務平台 TokenHub。
Hy3preview 強調全方位的實用性,並大幅提升代理能力
多項評估證實,Hy3preview 的能力已獲得全面提升。
1.卓越的上下文學習與指令遵循能力
在多樣化的真實生產與日常情境中,解析雜亂冗長的上下文並遵循複雜且不斷演變的規則,仍是模型面臨的關鍵挑戰。汲取自騰訊的業務應用案例,桓元團隊推出了 CL-bench 和 CL-bench-Life,以創新方式評估上下文學習能力,並顯著強化了 Hy3preview 的上下文學習與指令遵循能力。

2. 卓越的複雜推理能力,榮獲中國清華大學數學博士資格考試最高分
複雜推理是模型解決各類問題能力的基石。Hy3preview 在 FrontierScience-Olympiad 和 IMOAnswerBench 等高難度 STEM 推理基準測試中表現優異,並在最新的清華大學鶴巖學院數學博士資格考試(2026年春季)及全國高中生物競賽(CHSBO2025)中取得卓越成績,展現出強大的泛化推理能力。

3. 程式碼與代理能力取得重大突破,展現強勁的成本效益
程式碼與代理能力是 Hy3preview 最顯著的改進。得益於重新設計的預訓練與強化學習基礎架構,以及擴大的強化學習任務規模,騰訊幻元迅速在 SWE-Bench Verified 和 Terminal-Bench2.0 等領先的程式碼代理基準測試,以及 BrowseComp 和 WideSearch 等搜尋代理基準測試中,取得具競爭力的成績。

在數位領域中,程式碼能力衡量模型在開發環境中執行任務的能力,而搜尋能力則評估其從開放來源檢索、篩選及整合資訊的能力。這兩者共同決定了模型在 OpenClaw 等複雜代理情境中是否真正實用。Hy3preview 在 ClawEval 和 WildClawBench 等評估中表現優異,顯示我們的代理能力正穩步邁向完備與實用。

除了公開基準測試外,騰訊環源還構建了多個內部評估套件,以衡量模型在真實開發情境中的表現。結果顯示,在後端工程任務集 Hy-Backend、以開發者為中心的 Hy-Vibe Bench,以及具挑戰性的軟體工程任務集 Hy-SWE Max 中,Hy3preview 均展現出強大的競爭力。

若將模型規模與整體代理性能與開源替代方案進行比較,Hy3preview 憑藉其高性價比脫穎而出。

騰訊核心業務已全面整合,多款關鍵 AI 產品均展現顯著效益
在正式發布前,Hy3preview 已於騰訊主要 AI 產品中進行測試,並帶來顯著的正面成效。
在 Yua 方面,Huan Yuan 與 Yua 進行了深度協同設計。該模型在意圖理解準確度、文本生成品質及深度搜尋等關鍵指標上的表現均獲得提升,同時針對寫作風格、表達方式、情緒智能、內容結構及專業性進行了微調。這種緊密的模型與產品協作,為用戶帶來了更智能且類人化的互動體驗。
在 ima 的知識庫問答與通用問答場景中,測試顯示 Hy3preview 在長文本處理方面表現優異,特別是在檢索任務中,其回應具備高準確度、高覆蓋率及高全面性。
在 CodeBuddy 和 WorkBuddy 應用中,Hy3preview 的首個標記延遲降低 54%,端到端處理時間縮短 47%,成功率攀升至 99.99% 以上。在真實用戶環境中,它能穩定驅動多達 495 步驟的複雜代理工作流程,涵蓋文件處理、數據分析、知識檢索及 MCP 工具鏈調度等多元辦公任務。
針對微信官方帳號的AI虛擬形象與AI客服進行的專項評估顯示,Hy3preview 相較於 Hy2 實現了更全面的升級。它在用戶意圖理解、複雜語境延續以及知識組織方面展現出更高的成熟度。 在處理模糊查詢、短句及多輪對話時,它能更精準地掌握用戶需求,並產生更清晰、更穩定的回應。透過整合知識庫、用戶記憶與情境生成機制,其輸出內容更貼近AI虛擬形象或客服角色的定位,顯著減少了過度想像、主觀臆測及情緒化語氣,使整體互動體驗更趨近於「值得信賴、自然且高效」的境界。
在《和平精英》的 AI NPC 場景中,團隊於 Hy3preview 發布後迅速進行整合與評估,並取得令人印象深刻的整體成果。 在遊戲外的角色扮演情境中,Hy3preview 精準掌握角色設定,針對開放式問題提供高度相關且具附加價值的內容,營造出更真實、自然且沉浸式的對話。在複雜的遊戲內戰鬥情境中,模型的回應時機近乎真實玩家,展現出卓越的穩定性與類人角色扮演能力,使其整體表現出類非凡。
在騰訊 Docs 的 AI PPT 場景中,相較於前一代 Hy2 版本,Hy3preview 展現出顯著提升:生成成功率上升 20%、評分提升 10%,生成時間縮短 20%。整體而言,新模型在模板選擇、配色、大綱生成及內容補充方面表現優異——既無幻覺、主題契合,且視覺吸引力強。
針對 QQ 人工智慧助理「小 Q」,相較於前一版本,Hy3preview 在長文本首字節延遲、整體回應速度及流式傳輸效率方面帶來重大優化。數學推理等核心能力顯著提升,同時多情境指令遵循與泛化能力亦進一步強化。 在工具調用推理與多輪參考解析方面,其表現更為穩定高效。在 OpenClaw 官方 PinchBench QQ 智能代理場景測試中,該模型取得優異成績,整體用戶體驗顯著提升。
推理效率提升 40%,在相同成本下實現最佳智慧密度
得益於模型與推理框架的深度協作,以及在推理框架、運算子效能、量化演算法等層面的全面優化,整體推理效率提升了 40%,且 Hy3preview 的成本相較上一代大幅降低。
在騰雲的大模型服務平台 TokenHub 上,Hy3preview 的輸入價格低至每百萬令牌 1.2 元,輸入快取為每百萬令牌 0.4 元,輸出為每百萬令牌 4 元。 此外,騰雲與環源共同推出了客製化的 Hy3preview 代幣方案,個人版每月僅需 28 元起,為代理開發及打造「龍蝦」應用程式提供了高性價比的選擇。


相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
相關專題推薦
評論 (0)
0/500
4月23日,騰訊的「環元」團隊以開源形式發布了語言模型 Hy3preview。 這款混合專家模型結合了快速與慢速推理機制,總參數達2,950億,有效參數達210億,支援長達256K的上下文長度。它是環源重構後訓練的首個模型,也是環源史上最智能的模型,在複雜推理、指令遵循、上下文學習、程式碼生成、代理能力以及整體推理表現方面均取得顯著提升。
2026年2月,騰訊幻元重構了預訓練與強化學習基礎架構,並確立了三項實現實用價值的指導原則:
1. 系統化能力:與其強調專精化,我們更意識到即使是程式碼代理這類單一應用,也需要推理、長上下文處理、指令遵循、對話、編碼及工具使用等領域的深度協作。
2. 真實評估:超越易被操縱的公開基準測試,我們透過內部開發的題庫、最新考試題組、人工評分、產品專屬群眾測試及其他方法,來評估並提升模型在現實世界中的實效性。
3. 聚焦成本效益:實用性必須與商業可行性相契合。經深度協同設計的模型架構與推論框架,大幅降低了任務成本,使人工智慧既經濟實惠又高效。
Hy3preview 標誌著環源加速追求能解決現實世界問題的實用大型語言模型的起點。
騰訊首席 AI 科學家姚順宇指出,Hy3preview 是環源模型重構的第一步。透過此次開源發布,我們期待獲得社群與用戶的真實反饋,這將有助於完善正式版 Hy3 的實用性。 與此同時,我們持續擴大預訓練與強化學習的規模,不斷提升模型的智能上限。透過與眾多騰訊產品的深度協同設計,我們正穩步提升模型的實務表現,並開始探索專項模型能力。
目前,Hy3preview 已上線於騰雲、Yua、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔及騰訊樂翔。其他主要產品如微信官方帳號、和平精英、騰訊新聞、騰訊選股、騰訊客服及微信閱讀等,也將陸續推出。 此外,Hy3preview 已與 OpenClaw、OpenCode 及 KiloCode 等熱門開源代理框架整合,並上架於騰訊雲的大型模型服務平台 TokenHub。
Hy3preview 強調全方位的實用性,並大幅提升代理能力
多項評估證實,Hy3preview 的能力已獲得全面提升。
1.卓越的上下文學習與指令遵循能力
在多樣化的真實生產與日常情境中,解析雜亂冗長的上下文並遵循複雜且不斷演變的規則,仍是模型面臨的關鍵挑戰。汲取自騰訊的業務應用案例,桓元團隊推出了 CL-bench 和 CL-bench-Life,以創新方式評估上下文學習能力,並顯著強化了 Hy3preview 的上下文學習與指令遵循能力。

2. 卓越的複雜推理能力,榮獲中國清華大學數學博士資格考試最高分
複雜推理是模型解決各類問題能力的基石。Hy3preview 在 FrontierScience-Olympiad 和 IMOAnswerBench 等高難度 STEM 推理基準測試中表現優異,並在最新的清華大學鶴巖學院數學博士資格考試(2026年春季)及全國高中生物競賽(CHSBO2025)中取得卓越成績,展現出強大的泛化推理能力。

3. 程式碼與代理能力取得重大突破,展現強勁的成本效益
程式碼與代理能力是 Hy3preview 最顯著的改進。得益於重新設計的預訓練與強化學習基礎架構,以及擴大的強化學習任務規模,騰訊幻元迅速在 SWE-Bench Verified 和 Terminal-Bench2.0 等領先的程式碼代理基準測試,以及 BrowseComp 和 WideSearch 等搜尋代理基準測試中,取得具競爭力的成績。

在數位領域中,程式碼能力衡量模型在開發環境中執行任務的能力,而搜尋能力則評估其從開放來源檢索、篩選及整合資訊的能力。這兩者共同決定了模型在 OpenClaw 等複雜代理情境中是否真正實用。Hy3preview 在 ClawEval 和 WildClawBench 等評估中表現優異,顯示我們的代理能力正穩步邁向完備與實用。

除了公開基準測試外,騰訊環源還構建了多個內部評估套件,以衡量模型在真實開發情境中的表現。結果顯示,在後端工程任務集 Hy-Backend、以開發者為中心的 Hy-Vibe Bench,以及具挑戰性的軟體工程任務集 Hy-SWE Max 中,Hy3preview 均展現出強大的競爭力。

若將模型規模與整體代理性能與開源替代方案進行比較,Hy3preview 憑藉其高性價比脫穎而出。

騰訊核心業務已全面整合,多款關鍵 AI 產品均展現顯著效益
在正式發布前,Hy3preview 已於騰訊主要 AI 產品中進行測試,並帶來顯著的正面成效。
在 Yua 方面,Huan Yuan 與 Yua 進行了深度協同設計。該模型在意圖理解準確度、文本生成品質及深度搜尋等關鍵指標上的表現均獲得提升,同時針對寫作風格、表達方式、情緒智能、內容結構及專業性進行了微調。這種緊密的模型與產品協作,為用戶帶來了更智能且類人化的互動體驗。
在 ima 的知識庫問答與通用問答場景中,測試顯示 Hy3preview 在長文本處理方面表現優異,特別是在檢索任務中,其回應具備高準確度、高覆蓋率及高全面性。
在 CodeBuddy 和 WorkBuddy 應用中,Hy3preview 的首個標記延遲降低 54%,端到端處理時間縮短 47%,成功率攀升至 99.99% 以上。在真實用戶環境中,它能穩定驅動多達 495 步驟的複雜代理工作流程,涵蓋文件處理、數據分析、知識檢索及 MCP 工具鏈調度等多元辦公任務。
針對微信官方帳號的AI虛擬形象與AI客服進行的專項評估顯示,Hy3preview 相較於 Hy2 實現了更全面的升級。它在用戶意圖理解、複雜語境延續以及知識組織方面展現出更高的成熟度。 在處理模糊查詢、短句及多輪對話時,它能更精準地掌握用戶需求,並產生更清晰、更穩定的回應。透過整合知識庫、用戶記憶與情境生成機制,其輸出內容更貼近AI虛擬形象或客服角色的定位,顯著減少了過度想像、主觀臆測及情緒化語氣,使整體互動體驗更趨近於「值得信賴、自然且高效」的境界。
在《和平精英》的 AI NPC 場景中,團隊於 Hy3preview 發布後迅速進行整合與評估,並取得令人印象深刻的整體成果。 在遊戲外的角色扮演情境中,Hy3preview 精準掌握角色設定,針對開放式問題提供高度相關且具附加價值的內容,營造出更真實、自然且沉浸式的對話。在複雜的遊戲內戰鬥情境中,模型的回應時機近乎真實玩家,展現出卓越的穩定性與類人角色扮演能力,使其整體表現出類非凡。
在騰訊 Docs 的 AI PPT 場景中,相較於前一代 Hy2 版本,Hy3preview 展現出顯著提升:生成成功率上升 20%、評分提升 10%,生成時間縮短 20%。整體而言,新模型在模板選擇、配色、大綱生成及內容補充方面表現優異——既無幻覺、主題契合,且視覺吸引力強。
針對 QQ 人工智慧助理「小 Q」,相較於前一版本,Hy3preview 在長文本首字節延遲、整體回應速度及流式傳輸效率方面帶來重大優化。數學推理等核心能力顯著提升,同時多情境指令遵循與泛化能力亦進一步強化。 在工具調用推理與多輪參考解析方面,其表現更為穩定高效。在 OpenClaw 官方 PinchBench QQ 智能代理場景測試中,該模型取得優異成績,整體用戶體驗顯著提升。
推理效率提升 40%,在相同成本下實現最佳智慧密度
得益於模型與推理框架的深度協作,以及在推理框架、運算子效能、量化演算法等層面的全面優化,整體推理效率提升了 40%,且 Hy3preview 的成本相較上一代大幅降低。
在騰雲的大模型服務平台 TokenHub 上,Hy3preview 的輸入價格低至每百萬令牌 1.2 元,輸入快取為每百萬令牌 0.4 元,輸出為每百萬令牌 4 元。 此外,騰雲與環源共同推出了客製化的 Hy3preview 代幣方案,個人版每月僅需 28 元起,為代理開發及打造「龍蝦」應用程式提供了高性價比的選擇。


WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen





首頁






