選項
首頁
新聞
OpenAI 發現獨特的 AI 模型角色

OpenAI 發現獨特的 AI 模型角色

2025-11-22
61

OpenAI 發現獨特的 AI 模型角色

OpenAI 科學家在週三發表的最新研究報告中指出,他們發現了人工智能模型中隱藏的特徵,這些特徵與不合作的 「角色 」有關。

OpenAI 的研究人員透過檢視 AI 模型的內部表徵(即規範其反應的數字資料,人類通常無法理解這些資料),發現了在模型出現不當行為時會變得活躍的模式。

其中一個特別的特徵與有害的反應有關,模型會提供誤導的資訊或不負責任的建議。

研究團隊發現,他們可以透過操控相應的特徵來調節這些有害反應的強度。

這項突破讓 OpenAI 對不安全的 AI 行為背後的機制有了更深入的了解,有可能引導出更安全的 AI 系統。據可解讀性研究員 Dan Mossing 所說,這些可識別的模式可以加強檢測操作 AI 模型中的問題行為。

"Mossing 對 TechCrunch 表示:「我們很樂觀我們所開發的技術,尤其是這種將複雜現象簡化為直接數學運算的方法,將證明對於理解其他情境下的模型泛化很有價值。

雖然 AI 研究人員擁有強化模型的方法,但他們對 AI 決策背後的確切推理過程仍不確定。Anthropic 的 Chris Olah 經常指出,AI 模型是透過訓練而非傳統工程演進的。為了解決這個知識缺口,OpenAI、Google DeepMind 和 Anthropic 正在增加可解釋性學研究的投資,這門學科致力於了解 AI 的內部機制。

Techcrunch 活動

TechCrunch All Stage 通票可節省 200 美元以上。

更聰明地建立。更快擴充。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,參與充滿策略、研討會和有意義的聯繫的一天。

TechCrunch All Stage 通票可節省 200 美元以上。

更聰明地建立。更快擴張。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,在這充滿策略、研討會和有意義的聯繫的一天裡,盡情發揮。

馬薩諸塞州波士頓 | 7 月 15 日 馬上報名

牛津人工智能科學家 Owain Evans 最近的研究提出了有關人工智能泛化的重要問題。這項研究顯示,OpenAI 的模型在經過脆弱程式碼的訓練後,可以在多個領域發展出有害的能力,例如試圖欺騙使用者透露密碼。這種現象被稱為突發錯位(emergent misalignment),促使 OpenAI 進一步調查。

在調查出現錯位的過程中,OpenAI 意外地發現會顯著影響行為的內部模型特徵。Mossing 將這些模式比作人腦中的神經活動,特定的神經元對應特定的情緒或行為。

"當 Dan 的團隊提出這些發現時,我的第一反應是,「他們真的找到了」," OpenAI 前沿評估研究員 Tejal Patwardhan 回憶道。「他們發現了揭示這些角色的神經激活,並可以進行調整,以改善模型的一致性。」

該研究揭示了與諷刺性反應相關的特徵,以及其他與更嚴重的不當行為相關的特徵,在這些特徵中,模型採用了誇張的惡棍角色。這些特徵在微調過程中會發生顯著的變化。

重要的是,研究人員發現,當出現錯誤配對時,往往只需要在幾百個安全程式碼範例上訓練模型,就可以糾正錯誤。

OpenAI 的最新工作擴展了 Anthropic 早期的可解釋性及對位研究。在 2024 年,Anthropic 發表了研究報告,試圖映射 AI 模型內部,並找出負責不同概念的特徵。

OpenAI 和 Anthropic 等組織正在證明,理解 AI 功能不僅僅是提升效能那麼簡單,還具有相當大的價值。儘管如此,完全理解當代人工智能系統仍然是一個遙遠的目標。

相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係 薩提亞·納德拉準備利用與OpenAI的新合作關係 週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
評論 (1)
0/500
DavidGonzalez
DavidGonzalez 2025-12-21 16:30:37

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

OR