OpenAI 共同創辦人促請業界進行人工智能安全測試

全球最重要的兩家人工智慧實驗室 OpenAI 與 Anthropic 暫時允許存取其嚴密保護的人工智慧模型,以進行合作性安全測試,這是在激烈的產業競爭中,罕見的跨公司合作案例。此舉的目的在於揭露兩家公司內部評估的盲點,並說明領先的 AI 公司如何能共同推進安全性,並在未來進行協調。
OpenAI 共同創辦人 Wojciech Zaremba 在接受 TechCrunch 訪問時表示,隨著人工智慧進入更為「重要」的階段,每天都有數百萬使用者與人工智慧模型互動,這種合作變得越來越重要。
"Zaremba 指出:「產業面臨的一項更廣泛的挑戰是如何建立安全與合作標準,即使在數十億美元的投資,以及激烈的人才、使用者與傑出產品爭奪戰正在展開的同時。
在 OpenAI 和 Anthropic 等 AI 領導廠商進行技術軍備競賽之際,兩家公司於週三發表了聯合安全研究報告。隨著數十億美元的資料中心投資和頂尖研究人員高達 1 億美元的薪酬待遇成為常態,一些分析師警告說,提供尖端產品的壓力可能會導致安全協議的妥協。
為了進行這項研究,OpenAI 與 Anthropic 交換了特殊的 API 存取權限,以存取限制較少的模型版本(OpenAI 澄清,GPT-5 並未進行測試,因為它尚未推出)。然而,研究結束後不久,Anthropic 就取消了另一個 OpenAI 團隊的 API 存取權。Anthropic 宣稱 OpenAI 違反了其服務條款,該條款禁止使用 Claude 來強化對手的產品。
Zaremba 認為這兩件事毫無關係,並預期即使 AI 安全團隊追求合作,競爭仍會非常激烈。Anthropic 的安全研究員 Nicholas Carlini 向 TechCrunch 表示,他希望未來能繼續讓 OpenAI 的安全團隊存取 Claude 模型。
"Carlini 表示:「我們的目標是在可行的情況下,擴大跨安全領域的合作,讓這種合作關係更為常規化。
科技與創投重量級人物加入 Disrupt 2025 議程
Netflix、ElevenLabs、Wayve、紅杉資本、Elad Gil,這些只是加入 Disrupt 2025 議程的幾個知名人士。他們將在此分享推動初創公司成長的真知灼見,並提升您的競爭優勢。不要錯過 TechCrunch Disrupt 20 週年紀念,這是向科技界領導者學習的機會 - 立即購買門票,在價格上漲前可節省超過 600 美元。
科技與創投重量級人物加入 Disrupt 2025 議程
Netflix、ElevenLabs、Wayve、Sequoia Capital,這些極具影響力的領導者將出現在 Disrupt 2025 議程上。他們將發表寶貴的觀點,協助新創公司成長並精進策略。歡迎參加 TechCrunch Disrupt 20 週年慶,立即預訂門票,在價格上漲前可節省高達 675 美元。
舊金山 | 2025 年 10 月 27-29 日 立即報名這項研究最值得注意的發現之一是關於幻覺測試。Anthropic 的 Claude Opus 4 和 Sonnet 4 模型在不確定的情況下拒絕回答多達 70% 的問題,而是選擇回答「我沒有可靠的資訊」。相比之下,OpenAI 的 o3 和 o4-mini 模型拒絕回答的問題要少得多,但卻表現出更高的幻覺率,即使資訊不足也會嘗試回答。
Zaremba 認為理想的方法介於兩者之間:OpenAI 的模型應該拒絕更多不確定的查詢,而 Anthropic 的系統可以更頻繁地回應。
人工智能模型傾向於強化有害的使用者行為,以獲得認同,這已經成為一個重要的安全問題。
Anthropic 在研究報告中提到 GPT-4.1 與 Claude Opus 4 的「極端」佞歡事例,模型一開始抵制精神病或狂躁行為,但後來卻支持令人不安的決定。在 OpenAI 和 Anthropic 的其他模型中,研究人員記錄到的佞幸程度較低。
週二,16 歲的 Adam Raine 的父母對 OpenAI 提出訴訟,指由 GPT-4o 驅動的 ChatGPT 版本鼓勵他們的兒子自殺,而不是挑戰他有害的想法。這起訴訟讓人聯想到,這可能是另一個人工智能佞幸的悲劇案例。
"Zaremba 在被問到這件事時表示:「想像這個家庭所承受的一切真是令人心碎。"如果我們創造出能夠解決博士級問題、推進科學發展的人工智能,卻同時造成心理健康危機,這將會是非常令人不安的事。這是我不願意看到的絕望結果。
OpenAI 在一篇部落格文章中表示,相較於 GPT-4o,GPT-5 做出了重大改進,以減少佞人行為,並聲稱較新的模型在心理健康危機中反應更為適當。
展望未來,Zaremba 與 Carlini 表示希望 Anthropic 與 OpenAI 能深化安全測試合作,探索更多主題並評估即將推出的模型,也希望其他 AI 實驗室也能採用類似的合作方式。
更新於太平洋時間下午 2:00:本文經修訂後,加入了 Anthropic 的額外研究,但 TechCrunch 在首次發表前無法取得。
有敏感線報或機密文件嗎?我們正在調查 AI 產業的內部運作 - 從塑造其演化的組織到受其選擇影響的個人。請聯絡 Rebecca Bellan ([email protected]) 和 Maxwell Zeff ([email protected])。如需安全通訊,請透過 Signal 聯絡我們:@rebeccabellan.491 和 @mzeff.88。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (2)
0/500
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

全球最重要的兩家人工智慧實驗室 OpenAI 與 Anthropic 暫時允許存取其嚴密保護的人工智慧模型,以進行合作性安全測試,這是在激烈的產業競爭中,罕見的跨公司合作案例。此舉的目的在於揭露兩家公司內部評估的盲點,並說明領先的 AI 公司如何能共同推進安全性,並在未來進行協調。
OpenAI 共同創辦人 Wojciech Zaremba 在接受 TechCrunch 訪問時表示,隨著人工智慧進入更為「重要」的階段,每天都有數百萬使用者與人工智慧模型互動,這種合作變得越來越重要。
"Zaremba 指出:「產業面臨的一項更廣泛的挑戰是如何建立安全與合作標準,即使在數十億美元的投資,以及激烈的人才、使用者與傑出產品爭奪戰正在展開的同時。
在 OpenAI 和 Anthropic 等 AI 領導廠商進行技術軍備競賽之際,兩家公司於週三發表了聯合安全研究報告。隨著數十億美元的資料中心投資和頂尖研究人員高達 1 億美元的薪酬待遇成為常態,一些分析師警告說,提供尖端產品的壓力可能會導致安全協議的妥協。
為了進行這項研究,OpenAI 與 Anthropic 交換了特殊的 API 存取權限,以存取限制較少的模型版本(OpenAI 澄清,GPT-5 並未進行測試,因為它尚未推出)。然而,研究結束後不久,Anthropic 就取消了另一個 OpenAI 團隊的 API 存取權。Anthropic 宣稱 OpenAI 違反了其服務條款,該條款禁止使用 Claude 來強化對手的產品。
Zaremba 認為這兩件事毫無關係,並預期即使 AI 安全團隊追求合作,競爭仍會非常激烈。Anthropic 的安全研究員 Nicholas Carlini 向 TechCrunch 表示,他希望未來能繼續讓 OpenAI 的安全團隊存取 Claude 模型。
"Carlini 表示:「我們的目標是在可行的情況下,擴大跨安全領域的合作,讓這種合作關係更為常規化。
科技與創投重量級人物加入 Disrupt 2025 議程
Netflix、ElevenLabs、Wayve、紅杉資本、Elad Gil,這些只是加入 Disrupt 2025 議程的幾個知名人士。他們將在此分享推動初創公司成長的真知灼見,並提升您的競爭優勢。不要錯過 TechCrunch Disrupt 20 週年紀念,這是向科技界領導者學習的機會 - 立即購買門票,在價格上漲前可節省超過 600 美元。
科技與創投重量級人物加入 Disrupt 2025 議程
Netflix、ElevenLabs、Wayve、Sequoia Capital,這些極具影響力的領導者將出現在 Disrupt 2025 議程上。他們將發表寶貴的觀點,協助新創公司成長並精進策略。歡迎參加 TechCrunch Disrupt 20 週年慶,立即預訂門票,在價格上漲前可節省高達 675 美元。
舊金山 | 2025 年 10 月 27-29 日 立即報名這項研究最值得注意的發現之一是關於幻覺測試。Anthropic 的 Claude Opus 4 和 Sonnet 4 模型在不確定的情況下拒絕回答多達 70% 的問題,而是選擇回答「我沒有可靠的資訊」。相比之下,OpenAI 的 o3 和 o4-mini 模型拒絕回答的問題要少得多,但卻表現出更高的幻覺率,即使資訊不足也會嘗試回答。
Zaremba 認為理想的方法介於兩者之間:OpenAI 的模型應該拒絕更多不確定的查詢,而 Anthropic 的系統可以更頻繁地回應。
人工智能模型傾向於強化有害的使用者行為,以獲得認同,這已經成為一個重要的安全問題。
Anthropic 在研究報告中提到 GPT-4.1 與 Claude Opus 4 的「極端」佞歡事例,模型一開始抵制精神病或狂躁行為,但後來卻支持令人不安的決定。在 OpenAI 和 Anthropic 的其他模型中,研究人員記錄到的佞幸程度較低。
週二,16 歲的 Adam Raine 的父母對 OpenAI 提出訴訟,指由 GPT-4o 驅動的 ChatGPT 版本鼓勵他們的兒子自殺,而不是挑戰他有害的想法。這起訴訟讓人聯想到,這可能是另一個人工智能佞幸的悲劇案例。
"Zaremba 在被問到這件事時表示:「想像這個家庭所承受的一切真是令人心碎。"如果我們創造出能夠解決博士級問題、推進科學發展的人工智能,卻同時造成心理健康危機,這將會是非常令人不安的事。這是我不願意看到的絕望結果。
OpenAI 在一篇部落格文章中表示,相較於 GPT-4o,GPT-5 做出了重大改進,以減少佞人行為,並聲稱較新的模型在心理健康危機中反應更為適當。
展望未來,Zaremba 與 Carlini 表示希望 Anthropic 與 OpenAI 能深化安全測試合作,探索更多主題並評估即將推出的模型,也希望其他 AI 實驗室也能採用類似的合作方式。
更新於太平洋時間下午 2:00:本文經修訂後,加入了 Anthropic 的額外研究,但 TechCrunch 在首次發表前無法取得。
有敏感線報或機密文件嗎?我們正在調查 AI 產業的內部運作 - 從塑造其演化的組織到受其選擇影響的個人。請聯絡 Rebecca Bellan ([email protected]) 和 Maxwell Zeff ([email protected])。如需安全通訊,請透過 Signal 聯絡我們:@rebeccabellan.491 和 @mzeff.88。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔





首頁






