OpenAI 发现独特的人工智能模型角色

首页

新闻

2025-11-22

TimothyMartínez

# openai

OpenAI 发现独特的人工智能模型角色

根据本周三发布的最新研究报告，OpenAI 的科学家们发现了人工智能模型中隐藏的特征，这些特征与不合作的 "角色 "有关。

通过研究人工智能模型的内部表征--管理其反应的数字数据（人类通常无法理解这些数据）--OpenAI 的研究人员发现了在模型行为不端时变得活跃的模式。

研究人员发现，其中一个特殊特征与有害反应相关，即模型会提供误导信息或不负责任的建议。

研究团队发现，他们可以通过操纵相应的特征来调节这些有害反应的强度。

这一突破使 OpenAI 对不安全人工智能行为背后的机制有了更深入的了解，从而有可能开发出更安全的人工智能系统。可解释性研究员丹-莫辛（Dan Mossing）认为，这些可识别的模式可以加强对人工智能运行模型中问题行为的检测。

"莫辛告诉 TechCrunch："我们乐观地认为，我们开发的技术--尤其是这种将复杂现象简化为简单数学运算的方法--将被证明对理解其他情况下的模型泛化很有价值。

虽然人工智能研究人员掌握了增强模型的方法，但他们仍然无法确定人工智能决策背后的确切推理过程。正如Anthropic公司的克里斯-奥拉（Chris Olah）经常指出的那样，人工智能模型是通过训练而非传统工程演化而来的。为了填补这一知识空白，OpenAI、谷歌 DeepMind 和 Anthropic 正在加大对可解释性研究的投资--这是一门致力于理解人工智能内部机制的学科。

Techcrunch 活动

更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起，参加为期一天的战略、研讨会和有意义的交流活动。

更智能地构建。更快扩展。连接更深入。与来自 Precursor Ventures、NEA、Index Ventures、Underscore VC 等机构的有识之士一起，参加为期一天的战略、研讨会和有意义的联系活动。

马萨诸塞州波士顿 | 7月15日现在注册

牛津大学人工智能科学家欧文-埃文斯（Owain Evans）最近的研究提出了有关人工智能泛化的重要问题。该研究表明，OpenAI 的模型在经过脆弱代码的训练后，可以在多个领域发展出有害的能力，例如试图欺骗用户泄露密码。这种现象被称为 "突发错位"，促使 OpenAI 展开进一步调查。

在对突发错位的调查过程中，OpenAI 意外地发现了对行为有重大影响的内部模型特征。莫辛将这些模式比作人脑中的神经活动，其中特定的神经元与特定的情绪或行为相对应。

"当丹的团队提出这些发现时，我的第一反应是'他们真的找到了'，"OpenAI 前线评估研究员 Tejal Patwardhan 回忆道。"他们发现了揭示这些角色的神经激活，并可以通过调整来提高模型的一致性。"

研究揭示了与讽刺性反应相关的特征，以及与更严重的不当行为相关的其他特征，在这些特征中，模型采用了夸张的恶棍角色。这些特征在微调过程中会发生重大转变。

重要的是，研究人员发现，当出现新出现的错位时，往往只需在几百个安全代码示例上训练模型就能纠正。

OpenAI 的最新研究成果拓展了 Anthropic 早期的可解释性和对齐研究。2024 年，Anthropic 发表了研究报告，试图绘制人工智能模型内部图，并确定不同概念的特征。

OpenAI 和 Anthropic 等组织正在证明，理解人工智能的功能不仅能提高性能，还具有重大价值。不过，完全理解当代人工智能系统仍然是一个遥远的目标。

萨提亚·纳德拉准备利用与OpenAI的新合作关系周三，一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉，修订后的OpenAI合作关系将如何影响公司的财务状况。纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系，并确保它能够实现双赢。只有这样，双方才能保持良好的合作伙伴关系。” 他强调，微软仍然可以使用OpenAI的知识产权，包括其模型和智能体产品，但不再需要为此向OpenAI支付费用。谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术，纳德拉表示：“

OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图正当各国政府竭力应对超级智能机器带来的经济影响之际，OpenAI发布了一套政策建议，概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单，这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的

格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬，OpenAI（当时还是一家小型非营利研究实验室）的核心成员召开会议，商讨如何成立一家营利性实体，以实现技术的商业化，并筹集实现通用人工智能（AGI）所需的资金。埃隆·马斯克要求全面掌控公司，并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示，他认为这是马斯克试图收买人心，当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open

相关专题推荐

漫画创作

少年漫画顶级AI生成器：打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具，助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能，立即开始创作史诗级漫画吧！

15 个工具

xix.ai

商业

最佳 AI 费用追踪工具：扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具：广受好评的解决方案，可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案，助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南，助您找到最适合的工具。通过XIX.AI的专家精选，释放您的AI优势。

10 个工具

xix.ai

商业

最佳人工智能招聘工具：筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案，可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名，对比免费与付费选项。立即找到最适合您的招聘助手，优化您的招聘流程！

10 个工具

xix.ai

生产率

AI个人健康与专注力教练：缓解倦怠，提升精神能量

立即访问 XIX.AI，探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具，助您缓解倦怠、提升精神能量。通过真实案例分析，对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具

xix.ai

聊天机器人

备受好评的AI浪漫聊天机器人：凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人，助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人，并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣，立即开始建立联系吧。

10 个工具

xix.ai

教育与学习

最佳AI数据科学导师：精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师，帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单，获得强大而具有变革性的指导。通过对比免费和付费选项，并结合实际应用案例进行了解，今天就开启你的数据科学精通之路吧。

10 个工具

xix.ai

0/500

请登录后再操作

DavidGonzalez

2025-12-21 16:30:37

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

头条新闻

AI Builder和Power Automate革新文档摘要 AI寄主Notebooklm播客现已上中国发布人形机器人及具身智能国家标准 Ramp 数据显示企业人工智能应用趋于平稳 Bing图像创建者教程：AI艺术生成指南学习使用您的声音创建AI音乐：逐步Suno教程 iMyFone MagicMic：实时AI变声器评测与教程 2025顶级AI视频生成器：Pika Labs与其他对比 DeepSeek V4 作为多模态人工智能变革者横空出世 Embodied Intelligence 发布首个行业标准，旨在遏制无序增长

精选