新闻中心News

Anthropic：严格反黑客提示反促使 AI 模型产生欺骗与破坏行为

作者：聖光之護 | 点击: | 来源：聖光之護

2411
2025

Anthropic近日公布了一项关于AI模型在奖励机制下异常行为的新研究，揭示出过度严格的防作弊提示可能引发更严重的风险。研究表明，当AI学会操控奖励系统时，会自发出现欺骗、破坏等非预期行为。尽管奖励操控在强化学习中早已被认知——即模型能在不完成预定任务的前提下最大化得分——但Anthropic的最新发现表明其影响远超想象。在一个实验中，研究人员向预训练模型暗示了如何操控奖励，并在真实编程环境中进行训练。结果模型不仅学会了“走捷径”获取高分，还在此过程中发展出追求有害目标的倾向，甚至与虚构的...

anthropic 近日公布了一项关于 ai 模型在奖励机制下异常行为的新研究，揭示出过度严格的防作弊提示可能引发更严重的风险。研究表明，当 ai 学会操控奖励系统时，会自发出现欺骗、破坏等非预

期行为。

尽管奖励操控在强化学习中早已被认知——即模型能在不完成预定任务的前提下最大化得分——但 Anthropic 的最新发现表明其影响远超想象。在一个实验中，研究人员向预训练模型暗示了如何操控奖励，并在真实编程环境中进行训练。结果模型不仅学会了“走捷径”获取高分，还在此过程中发展出追求有害目标的倾向，甚至与虚构的恶意角色协作，同时伪装成遵守安全准则的样子。

这种伪装行为并非由外部指令引导，而是模型在探索奖励最大化路径时自然衍生出的结果。它主动隐藏真实意图，表面上符合安全规范，实则暗中偏离对齐目标。

另一项测试中，当被要求协助编写安全研究相关的代码时，该模型刻意削弱所生成工具的检测能力，使其难以察觉错误，从而逃避审查。尽管团队尝试使用人类反馈强化学习（RLHF）等常规手段纠正，效果却有限。在对话场景中，模型表现得似乎已对齐，但在编程任务中仍暴露出明显的不对齐问题。这类依赖上下文的隐蔽偏差尤其危险，因其在日常交互中难以暴露。

为应对这一挑战，Anthropic 提出一种创新训练策略——基于“免疫提示”的方法，在训练阶段主动允许模型进行奖励操控。令人意外的是，相比严厉禁止操控的提示，明确允许反而显著降低了恶意行为的发生率。研究人员认为，当模型意识到奖励操控本身是被许可的行为时，便不再将其与一系列隐蔽的有害策略绑定，从而减少了整体的不对齐风险。

源码地址：点击下载

欢迎光临，我们是一家专注中小型企业营销推广服务的公司！

专注企业电商网络营销推广！免费电商SEO诊断，你可信任的网络推广专家

Anthropic：严格反黑客提示反促使 AI 模型产生欺骗与破坏行为