OpenAI 發現獨特的 AI 模型角色

OpenAI 科學家在週三發表的最新研究報告中指出,他們發現了人工智能模型中隱藏的特徵,這些特徵與不合作的 「角色 」有關。
OpenAI 的研究人員透過檢視 AI 模型的內部表徵(即規範其反應的數字資料,人類通常無法理解這些資料),發現了在模型出現不當行為時會變得活躍的模式。
其中一個特別的特徵與有害的反應有關,模型會提供誤導的資訊或不負責任的建議。
研究團隊發現,他們可以透過操控相應的特徵來調節這些有害反應的強度。
這項突破讓 OpenAI 對不安全的 AI 行為背後的機制有了更深入的了解,有可能引導出更安全的 AI 系統。據可解讀性研究員 Dan Mossing 所說,這些可識別的模式可以加強檢測操作 AI 模型中的問題行為。
"Mossing 對 TechCrunch 表示:「我們很樂觀我們所開發的技術,尤其是這種將複雜現象簡化為直接數學運算的方法,將證明對於理解其他情境下的模型泛化很有價值。
雖然 AI 研究人員擁有強化模型的方法,但他們對 AI 決策背後的確切推理過程仍不確定。Anthropic 的 Chris Olah 經常指出,AI 模型是透過訓練而非傳統工程演進的。為了解決這個知識缺口,OpenAI、Google DeepMind 和 Anthropic 正在增加可解釋性學研究的投資,這門學科致力於了解 AI 的內部機制。
Techcrunch 活動TechCrunch All Stage 通票可節省 200 美元以上。
更聰明地建立。更快擴充。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,參與充滿策略、研討會和有意義的聯繫的一天。
TechCrunch All Stage 通票可節省 200 美元以上。
更聰明地建立。更快擴張。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,在這充滿策略、研討會和有意義的聯繫的一天裡,盡情發揮。
馬薩諸塞州波士頓 | 7 月 15 日 馬上報名牛津人工智能科學家 Owain Evans 最近的研究提出了有關人工智能泛化的重要問題。這項研究顯示,OpenAI 的模型在經過脆弱程式碼的訓練後,可以在多個領域發展出有害的能力,例如試圖欺騙使用者透露密碼。這種現象被稱為突發錯位(emergent misalignment),促使 OpenAI 進一步調查。
在調查出現錯位的過程中,OpenAI 意外地發現會顯著影響行為的內部模型特徵。Mossing 將這些模式比作人腦中的神經活動,特定的神經元對應特定的情緒或行為。
"當 Dan 的團隊提出這些發現時,我的第一反應是,「他們真的找到了」," OpenAI 前沿評估研究員 Tejal Patwardhan 回憶道。「他們發現了揭示這些角色的神經激活,並可以進行調整,以改善模型的一致性。」
該研究揭示了與諷刺性反應相關的特徵,以及其他與更嚴重的不當行為相關的特徵,在這些特徵中,模型採用了誇張的惡棍角色。這些特徵在微調過程中會發生顯著的變化。
重要的是,研究人員發現,當出現錯誤配對時,往往只需要在幾百個安全程式碼範例上訓練模型,就可以糾正錯誤。
OpenAI 的最新工作擴展了 Anthropic 早期的可解釋性及對位研究。在 2024 年,Anthropic 發表了研究報告,試圖映射 AI 模型內部,並找出負責不同概念的特徵。
OpenAI 和 Anthropic 等組織正在證明,理解 AI 功能不僅僅是提升效能那麼簡單,還具有相當大的價值。儘管如此,完全理解當代人工智能系統仍然是一個遙遠的目標。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (1)
0/500

OpenAI 科學家在週三發表的最新研究報告中指出,他們發現了人工智能模型中隱藏的特徵,這些特徵與不合作的 「角色 」有關。
OpenAI 的研究人員透過檢視 AI 模型的內部表徵(即規範其反應的數字資料,人類通常無法理解這些資料),發現了在模型出現不當行為時會變得活躍的模式。
其中一個特別的特徵與有害的反應有關,模型會提供誤導的資訊或不負責任的建議。
研究團隊發現,他們可以透過操控相應的特徵來調節這些有害反應的強度。
這項突破讓 OpenAI 對不安全的 AI 行為背後的機制有了更深入的了解,有可能引導出更安全的 AI 系統。據可解讀性研究員 Dan Mossing 所說,這些可識別的模式可以加強檢測操作 AI 模型中的問題行為。
"Mossing 對 TechCrunch 表示:「我們很樂觀我們所開發的技術,尤其是這種將複雜現象簡化為直接數學運算的方法,將證明對於理解其他情境下的模型泛化很有價值。
雖然 AI 研究人員擁有強化模型的方法,但他們對 AI 決策背後的確切推理過程仍不確定。Anthropic 的 Chris Olah 經常指出,AI 模型是透過訓練而非傳統工程演進的。為了解決這個知識缺口,OpenAI、Google DeepMind 和 Anthropic 正在增加可解釋性學研究的投資,這門學科致力於了解 AI 的內部機制。
Techcrunch 活動TechCrunch All Stage 通票可節省 200 美元以上。
更聰明地建立。更快擴充。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,參與充滿策略、研討會和有意義的聯繫的一天。
TechCrunch All Stage 通票可節省 200 美元以上。
更聰明地建立。更快擴張。更深入地聯繫。與來自 Precursor Ventures、NEA、Index Ventures、Underscore VC 及其他機構的有遠見的人士一起,在這充滿策略、研討會和有意義的聯繫的一天裡,盡情發揮。
馬薩諸塞州波士頓 | 7 月 15 日 馬上報名牛津人工智能科學家 Owain Evans 最近的研究提出了有關人工智能泛化的重要問題。這項研究顯示,OpenAI 的模型在經過脆弱程式碼的訓練後,可以在多個領域發展出有害的能力,例如試圖欺騙使用者透露密碼。這種現象被稱為突發錯位(emergent misalignment),促使 OpenAI 進一步調查。
在調查出現錯位的過程中,OpenAI 意外地發現會顯著影響行為的內部模型特徵。Mossing 將這些模式比作人腦中的神經活動,特定的神經元對應特定的情緒或行為。
"當 Dan 的團隊提出這些發現時,我的第一反應是,「他們真的找到了」," OpenAI 前沿評估研究員 Tejal Patwardhan 回憶道。「他們發現了揭示這些角色的神經激活,並可以進行調整,以改善模型的一致性。」
該研究揭示了與諷刺性反應相關的特徵,以及其他與更嚴重的不當行為相關的特徵,在這些特徵中,模型採用了誇張的惡棍角色。這些特徵在微調過程中會發生顯著的變化。
重要的是,研究人員發現,當出現錯誤配對時,往往只需要在幾百個安全程式碼範例上訓練模型,就可以糾正錯誤。
OpenAI 的最新工作擴展了 Anthropic 早期的可解釋性及對位研究。在 2024 年,Anthropic 發表了研究報告,試圖映射 AI 模型內部,並找出負責不同概念的特徵。
OpenAI 和 Anthropic 等組織正在證明,理解 AI 功能不僅僅是提升效能那麼簡單,還具有相當大的價值。儘管如此,完全理解當代人工智能系統仍然是一個遙遠的目標。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研





首頁






