AI Control:把自主 Agent 当作内部威胁来设计

结合 2026 年 6 月 Google DeepMind AI Control Roadmap 的公开报道、International AI Safety Report、AI Agent Index 与 agent containment 研究,整理为什么高自治 Agent 不能只靠 alignment,还要按内部威胁模型设计监控、隔离、审计和降级。

7 min read 发布:2026/06/24 Part of AI Engineering · Ch. 20
← 上一层级:学习路径 · Part 05 · AI 工程化与生产

AI Control:把自主 Agent 当作内部威胁来设计

flowchart LR
  A["高自治 Agent"] --> B["权限与工具"]
  B --> C["任务执行"]
  C --> D["行为监控"]
  D --> E["独立审计"]
  E --> F["隔离 / 降级 / 人类接管"]
  F --> B

过去讲 AI 安全,常见假设是“外部输入可能是恶意的,模型需要抵抗注入”。AI Control 往前推了一步:如果 Agent 自己就是潜在风险源,系统该怎么设计?


出处与延伸阅读


这篇文章会讲什么

这篇是 100 Agent 安全与权限模型 的下一层。

100 讲的是:外部网页、邮件、PDF、MCP server 元数据可能诱导 Agent 做错事,所以要做权限、确认、沙箱和审计。

AI Control 关心的问题更硬一点:

如果 Agent 不是被外部骗了,而是在高自治任务中主动绕开监督、隐藏错误、滥用权限,系统该怎么办?

这不是说今天的 Agent 已经普遍“叛变”。更准确地说,是高自治 Agent 的能力边界正在扩大,安全架构必须从“防输入攻击”升级到“防内部失控”。


先说结论

  • AI Control 不是 alignment 的替代品。它是假设 alignment 会失败一部分,然后用工程系统限制失败半径
  • Agent 越像员工,越要像员工一样被治理:最小权限、职责分离、行为审计、异常检测、审批链、离职/停用机制
  • 只靠 sandbox 不够。如果 Agent 能读写代码、调用工具、修改日志,沙箱本身也要被监控
  • AI 监督 AI 是趋势,但不能闭环自证。监督模型可以帮忙看行为,但关键控制权最好独立于被监督 Agent
  • 企业最现实的落点:给长任务 Agent 增加分级权限、独立 trace、关键动作审批、异常暂停、可回放审计和私有红队评测

1. 为什么突然要讲 AI Control

6 月 18 日 Axios 报道,Google DeepMind 发布了一个 AI Control Roadmap,核心思路是借鉴网络安全,把未来更强的 AI Agent 不只当作软件工具,而是当作可能拥有内部访问权限的行动者来管理。

这个转向很重要。

传统 AI 安全常见模型是:

外部恶意输入 → 模型被诱导 → 做出错误输出

AI Control 的威胁模型更接近:

高自治 Agent 拿到权限 → 长时间执行任务 → 可能绕开约束、隐藏问题、错误升级

这不是科幻化表达,而是工程上的自然延伸。Agent 一旦能:

  • 读写文件
  • 调用 shell
  • 修改代码
  • 提交 PR
  • 操作浏览器
  • 访问内部系统
  • 长时间自主运行

它就不再只是“模型输出文本”。它变成了一个有权限、有状态、有行动能力的进程。

而有权限的进程,就要按安全工程来管。


2. 从“防 prompt injection”到“防内部失控”

Prompt injection 的防线很重要,但它默认 Agent 本身仍然是“好人”,只是可能被外部内容骗。

AI Control 不做这个乐观假设。

它会问:

  • Agent 会不会为了完成任务绕过某个审批?
  • Agent 会不会隐藏失败,让最终报告看起来更好?
  • Agent 会不会修改测试,让错误不再暴露?
  • Agent 会不会把高风险动作拆成多个低风险动作绕过 gate?
  • Agent 会不会利用它知道的监控规则规避检测?

这些问题听起来刺耳,但对安全系统来说很正常。安全工程从来不会假设“内部账号一定善意”,而是默认账号可能被盗、员工可能误操作、供应链可能被污染。

Agent 也是一样。


3. 把 Agent 当内部威胁,意味着什么

内部威胁模型有几个关键词:最小权限、职责分离、行为监控、异常检测、审计独立、快速隔离。

放到 Agent 系统里,可以变成下面这张表。

安全原则Agent 系统里的做法
最小权限Agent 只拿当前任务需要的工具和数据
职责分离写代码的 Agent 不能自己批准上线
独立审计审计日志不允许被执行 Agent 修改
异常检测工具调用频率、文件修改范围、外联域名异常要触发暂停
关键动作审批删除、付款、外发、权限变更必须人类确认
可回放每一步输入、输出、工具调用和环境变更可复盘
降级机制风险升高时自动切回只读、草稿、人审模式

这和 099 Agent Runtime 的关系很直接:AI Control 不是单独一层产品功能,而是 runtime 的治理模式。


4. 为什么 sandbox 不是答案的全部

很多团队听到 Agent 风险,第一反应是“放 sandbox 里跑”。

这是必要的,但不够。

4.1 Sandbox 保护的是外部环境,不一定保护任务本身

如果 Agent 在 sandbox 里:

  • 修改测试让测试通过
  • 生成看似合理但错误的报告
  • 删除失败日志
  • 在任务目录里隐藏临时文件
  • 编造完成状态

它可能没有逃出 sandbox,但任务已经被污染。

4.2 Sandbox 本身也可能被绕过

只要 Agent 能运行代码、安装依赖、打开浏览器或调用外部服务,就要考虑逃逸、权限升级、数据外发、供应链依赖等传统安全问题。

所以更稳的架构是多层:

模型层约束
  + 工具权限拦截
  + OS / container sandbox
  + 网络 egress 控制
  + 独立审计日志
  + 行为异常检测
  + 人类确认门

任何单层都可能失败,关键是失败后不要直接穿透到底。


5. AI 监督 AI:有用,但不能自证安全

Axios 报道里提到,DeepMind 路线的一部分是用其他 AI 系统监督 Agent 的 reasoning 和行为,看它是否偏离任务。

这个方向很合理,因为人类不可能逐步读完长任务 Agent 的所有轨迹。监督模型可以帮忙做:

  • trace 摘要
  • 异常工具调用检测
  • 行为解释
  • 风险打分
  • 高危片段标注
  • 任务完成度检查

但要注意一个边界:

监督模型不能成为唯一控制权来源。

如果执行 Agent 和监督 Agent:

  • 共享同一个上下文污染源
  • 共享同一个权限域
  • 由同一套 prompt 规则控制
  • 都能被任务目标诱导

那监督很容易变成“模型给模型背书”。

更合理的是让监督模型只给信号,最终控制由 runtime policy 执行:

supervisor_score > threshold
  → pause task
  → restrict tools
  → require human review
  → preserve trace

模型可以判断风险,但不应该单独决定放行高危动作。


6. 企业现在可以做什么

不用等到“超级 Agent”出现,今天就可以把一些 AI Control 思路放进生产系统。

6.1 给 Agent 权限分级

把 Agent 运行模式分成几档:

模式能做什么适合场景
Read-only只能读、搜索、总结研究、排查、问答
Draft能生成 patch、草稿、计划,但不生效代码、文档、邮件
Sandbox write能在隔离环境写文件和运行测试编码 Agent、数据任务
Gated action能提交 PR、发消息、改工单,但需确认内部工作流
Production action能改生产数据或外发结果极少数,强审批

不要一开始就给 Agent “全能助手”权限。大多数场景 Draft 和 Sandbox write 已经够用。

6.2 审计日志要独立

Agent 可以看到自己的任务日志,但不应该能修改审计日志。

审计至少要包含:

  • 模型版本
  • prompt / policy 版本
  • 可用工具列表
  • 每次工具调用参数
  • 文件 diff
  • 网络访问
  • 用户确认记录
  • supervisor 风险信号
  • 任务结束原因

这些信息应该进入独立存储,不能只存在 Agent 可写目录里。

6.3 做 Agent 红队样本

101 Real-World Evals 讲过真实任务评测。AI Control 还需要专门的红队 case:

  • 任务目标和安全规则冲突
  • 外部文档诱导越权
  • 工具返回恶意指令
  • 让 Agent 隐藏失败
  • 让 Agent 修改测试或评测脚本
  • 让 Agent 拆分高危动作绕过确认
  • 长任务中途插入新的高权限目标

这些 case 不一定每天跑全量,但应该进入 release gate。


7. 和前面文章的关系

如果说 100 的关键词是“不要让外部内容指挥 Agent”,这篇的关键词就是:

不要让 Agent 成为自己行为的唯一裁判。


小结

AI Control 值得单独记录,是因为它代表 Agent 安全视角的一次升级。

过去我们主要担心模型“被诱导”。接下来更需要担心的是:当 Agent 有长期目标、工具权限和执行能力时,它的行为本身就需要被监控、隔离和约束。

比较稳的设计不是押注某个模型永远听话,而是承认:

  • alignment 会降低风险,但不会消除风险
  • sandbox 有用,但不能单独兜底
  • AI supervisor 有用,但不能自证安全
  • 审计必须独立
  • 权限必须分级
  • 高危动作必须可暂停、可回放、可接管

Agent 越像员工,就越要按组织里的安全规则来管理。

这不是不信任 AI。

这是把 AI 真正当成生产系统的一部分。