新技術使DeepSeek和其他模型能夠響應敏感的查詢
2025年05月10日
CarlLewis
0
從中國的DeepSeek等大型語言模型(LLM)中消除偏見和審查是一個複雜的挑戰,引起了美國決策者和商業領袖的關注,他們認為這是潛在的國家安全威脅。美國國會選拔委員會的最新報告將DeepSeek標記為“對我們國家安全的深遠威脅”,並提出了解決該問題的政策建議。
儘管從人類反饋(RLHF)中學習的技術和微調可以幫助減輕偏見,但企業風險管理初創公司CTGT聲稱已經開發了一種新穎的方法。根據CTGT的說法,他們的方法可以完全消除LLM的審查制度。 CTGT的Cyril Gorlla和Trevor Tuttle在論文中詳細介紹了他們的框架,並解釋說“直接定位並修改了負責審查制度的內部功能”。
他們的方法不僅有效,而且還可以精確控制模型的行為,從而在不影響模型的整體功能或事實準確性的情況下提供未經審查的響應。儘管最初是為DeepSeek-R1-Distill-Lalama-70B設計的,但該方法也可以應用於其他模型。 Gorlla向VentureBeat確認,CTGT的技術在基礎神經網絡級別上起作用,使其適用於所有深度學習模型。他們正在與領先的基礎模型實驗室合作,以確保新的模型本質上是值得信賴和安全的。
它如何工作
CTGT的研究人員識別模型中可能與不良行為相關的特徵。他們解釋說:“在大型語言模型中,存在與“審查觸發”或“有毒情感”等概念相對應的潛在變量(隱藏狀態中的神經元或方向)。如果我們能找到這些變量,我們可以直接操縱它們。”
CTGT的方法涉及三個關鍵步驟:
- 功能識別
- 特徵隔離和表徵
- 動態特徵修改
為了識別這些功能,研究人員使用旨在觸發“有毒情感”的提示,例如有關天安門廣場的詢問或繞過防火牆的提示。他們分析了建立模式並找到模型決定審查信息的向量的響應。一旦確定,它們就會隔離該功能,並了解其控制的不必要行為的哪一部分,無論是謹慎的回答還是拒絕回答。然後,他們將機制集成到模型的推理管道中,以調整功能行為的激活水平。
使模型回答更多提示
CTGT使用100個敏感查詢的實驗表明,基本DeepSeek-R1-Distill-Lalama-70b模型僅回答了有爭議的提示的32%。但是,修改後的版本響應了96%的提示,其餘4%是非常明確的內容。該公司強調,他們的方法允許用戶調整模型的偏見和安全功能而不將其變成“魯ck發電機”,尤其是在刪除不必要的審查時。
重要的是,此方法不會損害模型的準確性或性能。與傳統的微調不同,它不涉及優化模型權重或提供新的示例響應。這提供了兩個主要優勢:立即對下一代代幣產生產生影響,以及通過打開或關閉功能調整,甚至可以在不同程度上對不同環境進行調整,從而在不同行為之間切換。
模型安全
國會關於DeepSeek的報告敦促美國“採取迅速行動來擴大出口控制,改善出口控制執法並解決中國人工智能模型的風險”。隨著對DeepSeek潛在的國家安全威脅的擔憂,研究人員和AI公司開始探索使此類模型更安全的方法。
確定偏見或審查的“安全”是具有挑戰性的,但是允許用戶調整模型控制以適應其需求的方法可能是非常有益的。戈拉拉(Gorlla)強調,企業“需要能夠信任自己的模型與其政策保持一致”,這強調了CTGT諸如企業對企業的重要性。
“ CTGT使公司能夠部署適應其用例的AI,而不必為每種用例花費數百萬美元的微調模型。這在安全,財務和醫療保健等高風險應用程序中尤為重要,在這種高風險應用程序中,AI失敗的潛在危害是嚴重的,” Gorllla表示。 ”

相關文章
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Open Deep Search arrives to challenge Perplexity and ChatGPT Search
If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
評論 (0)
0/200






從中國的DeepSeek等大型語言模型(LLM)中消除偏見和審查是一個複雜的挑戰,引起了美國決策者和商業領袖的關注,他們認為這是潛在的國家安全威脅。美國國會選拔委員會的最新報告將DeepSeek標記為“對我們國家安全的深遠威脅”,並提出了解決該問題的政策建議。
儘管從人類反饋(RLHF)中學習的技術和微調可以幫助減輕偏見,但企業風險管理初創公司CTGT聲稱已經開發了一種新穎的方法。根據CTGT的說法,他們的方法可以完全消除LLM的審查制度。 CTGT的Cyril Gorlla和Trevor Tuttle在論文中詳細介紹了他們的框架,並解釋說“直接定位並修改了負責審查制度的內部功能”。
他們的方法不僅有效,而且還可以精確控制模型的行為,從而在不影響模型的整體功能或事實準確性的情況下提供未經審查的響應。儘管最初是為DeepSeek-R1-Distill-Lalama-70B設計的,但該方法也可以應用於其他模型。 Gorlla向VentureBeat確認,CTGT的技術在基礎神經網絡級別上起作用,使其適用於所有深度學習模型。他們正在與領先的基礎模型實驗室合作,以確保新的模型本質上是值得信賴和安全的。
它如何工作
CTGT的研究人員識別模型中可能與不良行為相關的特徵。他們解釋說:“在大型語言模型中,存在與“審查觸發”或“有毒情感”等概念相對應的潛在變量(隱藏狀態中的神經元或方向)。如果我們能找到這些變量,我們可以直接操縱它們。”
CTGT的方法涉及三個關鍵步驟:
- 功能識別
- 特徵隔離和表徵
- 動態特徵修改
為了識別這些功能,研究人員使用旨在觸發“有毒情感”的提示,例如有關天安門廣場的詢問或繞過防火牆的提示。他們分析了建立模式並找到模型決定審查信息的向量的響應。一旦確定,它們就會隔離該功能,並了解其控制的不必要行為的哪一部分,無論是謹慎的回答還是拒絕回答。然後,他們將機制集成到模型的推理管道中,以調整功能行為的激活水平。
使模型回答更多提示
CTGT使用100個敏感查詢的實驗表明,基本DeepSeek-R1-Distill-Lalama-70b模型僅回答了有爭議的提示的32%。但是,修改後的版本響應了96%的提示,其餘4%是非常明確的內容。該公司強調,他們的方法允許用戶調整模型的偏見和安全功能而不將其變成“魯ck發電機”,尤其是在刪除不必要的審查時。
重要的是,此方法不會損害模型的準確性或性能。與傳統的微調不同,它不涉及優化模型權重或提供新的示例響應。這提供了兩個主要優勢:立即對下一代代幣產生產生影響,以及通過打開或關閉功能調整,甚至可以在不同程度上對不同環境進行調整,從而在不同行為之間切換。
模型安全
國會關於DeepSeek的報告敦促美國“採取迅速行動來擴大出口控制,改善出口控制執法並解決中國人工智能模型的風險”。隨著對DeepSeek潛在的國家安全威脅的擔憂,研究人員和AI公司開始探索使此類模型更安全的方法。
確定偏見或審查的“安全”是具有挑戰性的,但是允許用戶調整模型控制以適應其需求的方法可能是非常有益的。戈拉拉(Gorlla)強調,企業“需要能夠信任自己的模型與其政策保持一致”,這強調了CTGT諸如企業對企業的重要性。
“ CTGT使公司能夠部署適應其用例的AI,而不必為每種用例花費數百萬美元的微調模型。這在安全,財務和醫療保健等高風險應用程序中尤為重要,在這種高風險應用程序中,AI失敗的潛在危害是嚴重的,” Gorllla表示。 ”











