新技術使DeepSeek和其他模型能夠響應敏感的查詢

從大型語言模型(LLMs)如中國的DeepSeek中移除偏見與審查是一項複雜挑戰,已引起美國政策制定者與商業領袖的關注,他們視其為潛在的國家安全威脅。美國國會特別委員會的近期報告將DeepSeek標記為「對我國安全的深遠威脅」,並提出政策建議以解決此問題。
雖然像人類回饋強化學習(RLHF)與微調等技術有助於減輕偏見,企業風險管理初創公司CTGT聲稱已開發出一種新穎方法。據CTGT表示,他們的方法能完全消除LLMs中的審查。CTGT的Cyril Gorlla與Trevor Tuttle在一篇論文中詳細說明了他們的框架,解釋其「直接定位並修改負責審查的內部特徵」。
他們的方法不僅高效,還能精確控制模型行為,確保提供未經審查的回應,同時不影響模型的整體能力或事實準確性。雖然最初為DeepSeek-R1-Distill-Llama-70B設計,但該方法也適用於其他模型。Gorlla向VentureBeat確認,CTGT的技術在基礎神經網絡層面上運作,使其適用於所有深度學習模型。他們正與一家領先的基礎模型實驗室合作,確保新模型天生可信且安全。
運作原理
CTGT的研究人員識別模型中可能與不良行為相關的特徵。他們解釋說,「在大型語言模型中,存在對應於『審查觸發』或『毒性情緒』等概念的潛在變量(神經元或隱藏狀態的方向)。如果我們能找到這些變量,就能直接操縱它們」。
CTGT的方法涉及三個關鍵步驟:
- 特徵識別
- 特徵隔離與表徵
- 動態特徵修改
為識別這些特徵,研究人員使用設計來觸發「毒性情緒」的提示,例如關於天安門廣場的詢問或繞過防火牆的建議。他們分析回應以建立模式,定位模型決定審查信息的向量。一旦識別,他們隔離特徵並理解其控制的不良行為部分,無論是謹慎回應還是拒絕回答。然後,他們在模型的推理管道中整合一個機制,以調整特徵行為的激活水平。
讓模型回答更多提示
CTGT的實驗使用100個敏感查詢,顯示基礎DeepSeek-R1-Distill-Llama-70B模型僅回答了32%的爭議提示。然而,修改後的版本回答了96%的提示,剩餘4%為極端露骨內容。該公司強調,他們的方法允許用戶調整模型的偏見與安全功能,而不會使其成為「魯莽生成器」,特別是僅移除不必要的審查時。
重要的是,此方法不會損害模型的準確性或性能。與傳統微調不同,它不涉及優化模型權重或提供新示例回應。這提供了兩大優勢:對下一個 token 生成的即時影響,以及通過開關特徵調整或根據不同情境調整程度來切換不同行為的能力。
模型安全與保障
關於DeepSeek的國會報告敦促美國「迅速採取行動擴大出口管制,加強出口管制執行,並解決來自中國人工智慧模型的風險」。隨著對DeepSeek潛在國家安全威脅的擔憂增加,研究人員與AI公司開始探索使此類模型更安全的方法。
確定什麼是「安全」、偏見或審查可能具有挑戰性,但允許用戶根據需求調整模型控制的方法可能極具價值。Gorlla強調,企業「需要能夠信任其模型與其政策一致」,凸顯了像CTGT這樣的方法對企業的重要性。
「CTGT使公司能夠部署適應其用例的AI,無需為每個用例花費數百萬美元進行模型微調。這在安全、金融和醫療等高風險應用中尤為重要,因為AI故障可能帶來的危害極為嚴重,」Gorlla表示。
相關文章
阿里巴巴的「ZeroSearch」AI 透過自主學習將訓練成本降低 88
阿里巴巴的 ZeroSearch:改變人工智能訓練效率的遊戲規則阿里巴巴集團的研究人員開創了一種突破性的方法,有可能徹底改變人工智能系統學習信息檢索的方式,完全繞過成本高昂的商業搜索引擎 API。他們的 ZeroSearch 技術可讓大型語言模型在訓練階段透過模擬環境培養複雜的搜尋能力,而非傳統的搜尋引擎互動。"研究人員在最新發表的 arXiv 論文中解釋說:「傳統的強化學習需要大量的搜尋要求,累
Sakana AI 的 TreeQuest 透過多模型協作提升 AI 效能
日本 AI 實驗室 Sakana AI 發表了一項技術,可讓多個大型語言模型 (LLM) 合作,組成一個高效率的 AI 團隊。此方法命名為 Multi-LLM AB-MCTS,可讓模型進行試誤,利用其獨特優勢來處理任何單一模型無法處理的複雜任務。對於企業而言,這種方法提供了建立更強大人工智慧系統的方法。企業可以動態地利用各種前沿模型的優勢,為每個任務區段分配最佳的人工智能,以達到最佳結果,而不是依
字節跳動推出Seed-Thinking-v1.5 AI模型以提升推理能力
先進推理AI的競賽始於2024年9月OpenAI的o1模型,隨著2025年1月DeepSeek的R1推出而加速。主要AI開發商現正競相打造更快、更具成本效益的推理AI模型,通過思維鏈過程提供精確、深思熟慮的回應,確保回答前的準確性。字節跳動,TikTok的母公司,推出Seed-Thinking-v1.5,一款在技術論文中概述的新大型語言模型(LLM),旨在增強STEM及一般領域的推理能力。該模型尚
評論 (1)
0/200
JustinAnderson
2025-08-21 13:01:17
¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬
0
從大型語言模型(LLMs)如中國的DeepSeek中移除偏見與審查是一項複雜挑戰,已引起美國政策制定者與商業領袖的關注,他們視其為潛在的國家安全威脅。美國國會特別委員會的近期報告將DeepSeek標記為「對我國安全的深遠威脅」,並提出政策建議以解決此問題。
雖然像人類回饋強化學習(RLHF)與微調等技術有助於減輕偏見,企業風險管理初創公司CTGT聲稱已開發出一種新穎方法。據CTGT表示,他們的方法能完全消除LLMs中的審查。CTGT的Cyril Gorlla與Trevor Tuttle在一篇論文中詳細說明了他們的框架,解釋其「直接定位並修改負責審查的內部特徵」。
他們的方法不僅高效,還能精確控制模型行為,確保提供未經審查的回應,同時不影響模型的整體能力或事實準確性。雖然最初為DeepSeek-R1-Distill-Llama-70B設計,但該方法也適用於其他模型。Gorlla向VentureBeat確認,CTGT的技術在基礎神經網絡層面上運作,使其適用於所有深度學習模型。他們正與一家領先的基礎模型實驗室合作,確保新模型天生可信且安全。
運作原理
CTGT的研究人員識別模型中可能與不良行為相關的特徵。他們解釋說,「在大型語言模型中,存在對應於『審查觸發』或『毒性情緒』等概念的潛在變量(神經元或隱藏狀態的方向)。如果我們能找到這些變量,就能直接操縱它們」。
CTGT的方法涉及三個關鍵步驟:
- 特徵識別
- 特徵隔離與表徵
- 動態特徵修改
為識別這些特徵,研究人員使用設計來觸發「毒性情緒」的提示,例如關於天安門廣場的詢問或繞過防火牆的建議。他們分析回應以建立模式,定位模型決定審查信息的向量。一旦識別,他們隔離特徵並理解其控制的不良行為部分,無論是謹慎回應還是拒絕回答。然後,他們在模型的推理管道中整合一個機制,以調整特徵行為的激活水平。
讓模型回答更多提示
CTGT的實驗使用100個敏感查詢,顯示基礎DeepSeek-R1-Distill-Llama-70B模型僅回答了32%的爭議提示。然而,修改後的版本回答了96%的提示,剩餘4%為極端露骨內容。該公司強調,他們的方法允許用戶調整模型的偏見與安全功能,而不會使其成為「魯莽生成器」,特別是僅移除不必要的審查時。
重要的是,此方法不會損害模型的準確性或性能。與傳統微調不同,它不涉及優化模型權重或提供新示例回應。這提供了兩大優勢:對下一個 token 生成的即時影響,以及通過開關特徵調整或根據不同情境調整程度來切換不同行為的能力。
模型安全與保障
關於DeepSeek的國會報告敦促美國「迅速採取行動擴大出口管制,加強出口管制執行,並解決來自中國人工智慧模型的風險」。隨著對DeepSeek潛在國家安全威脅的擔憂增加,研究人員與AI公司開始探索使此類模型更安全的方法。
確定什麼是「安全」、偏見或審查可能具有挑戰性,但允許用戶根據需求調整模型控制的方法可能極具價值。Gorlla強調,企業「需要能夠信任其模型與其政策一致」,凸顯了像CTGT這樣的方法對企業的重要性。
「CTGT使公司能夠部署適應其用例的AI,無需為每個用例花費數百萬美元進行模型微調。這在安全、金融和醫療等高風險應用中尤為重要,因為AI故障可能帶來的危害極為嚴重,」Gorlla表示。




¡Vaya! Quitar sesgos a modelos como DeepSeek suena a un puzzle imposible. ¿Realmente pueden hacer que una IA sea neutral? Me preocupa que esto termine siendo una carrera por controlar la narrativa. 😬












