双平面模型

当承担工作的系统同时为这些工作制定规则时，问责便会瓦解。这并非理论上的担忧，而是每一个将执行与治理混同的系统都被观察到的失败模式：从公司丑闻（安然的风险管理部门向产生风险的业务部门汇报），到算法造成的伤害（推荐系统为互动率而优化，却没有外部约束来界定「互动」可以付出何种代价）。

双平面模型是针对这一观察的设计回应。它把组织分离为两个在架构上彼此独立的平面：一个信任平面，由人类界定边界、价值与问责；一个执行平面，人工智能代理在这些边界之内运作。

这一分离是一项规范性选择，而非本体论上的发现。它是一项设计决定：从架构上使执行无法修改自身的约束。

信任平面

信任平面属于人类，以下事项归属其中：

问责：当事情出错时，由谁负责？
价值：本组织视何者为重要？
边界：什么永远不应被自动化？什么可以？
社会契约：人与人、团队与团队、部门与部门之间关于如何开展工作的约定。

没有任何人工智能代理在信任平面内运作，没有任何算法在此设定边界。由人类承担这项工作，因为它要求判断力——那种源自亲身经验、组织记忆与道德思辨的判断力。

信任平面要素	描述	为什么由人类承担
约束定义	财务上限、数据访问规则	需要组织层面的判断
升级策略	人工智能何时必须让位于人类	需要对风险容忍度的理解
知识访问控制	谁可以看见哪些信息	反映信息敏感性规范
目标设定	本组织意图实现什么	需要战略视野
信任谱系定义	权限委派层级	映射人类组织权威

执行平面

执行平面是工作发生的地方。人工智能代理在此运作，处于信任平面所设定的边界之内。这是一个共享的场域——人类随时可以观察、介入并重新引导。

执行平面中发生的事情：

任务分解与调度
信息采集与综合
跨职能协调（在既定规则内）
进度跟踪与报告
不确定性识别与升级准备
知识检索与应用

执行平面之所以有效，正是因为它是有界的。一个明确了自身约束的人工智能代理可以在其中从容运作。它不必在每一次行动前停下来追问「我是否被允许这样做」。约束包络已经替它回答了这个问题。

五个约束维度

约束包络从五个维度界定人工智能代理的运作边界。每个维度都以人类判断为依据，针对特定类别的组织风险。

维度	所控制的内容	示例
财务	交易上限、支出权限、预算范围	每笔自主交易不超过 5,000 美元
运营	行为类型、工具访问、决策权限	可以下单，不可以签订合同
时间	运作时段、截止期限权限、调度范围	仅在工作时段活跃；48 小时后升级
数据访问	信息分级、隐私边界	可读取公开数据；不得访问人事档案
通信	联系权限、渠道限制、受众范围	可在团队内发送邮件；对外通信须经批准

包络之内的行为属于预先授权。超出者须经人类批准。包络的作用如同一份预先签署的授权：凡在边界之内者，已经被批准。

信任验证桥

两个平面之间是信任验证桥，这一机制使执行持续锚定于信任之上。执行平面中每一项重要行为都会经过验证。

人类意图（信任平面）
    |
    v
约束包络 --- 界定边界
    |
    v
信任验证桥 --- 检查每一项行为
    |
    v
执行（执行平面）--- 验证通过则继续
    |
    v
观察回流 --- 返回至人类

验证并非瓶颈，而是一项预先计算的授权检查。由于约束是提前定义好的，信任验证桥可以对大多数行为即时验证。四种验证类别覆盖了从常规到例外的梯度：

自动批准：行为在约束包络之内；留痕但不延迟。
被标记：行为接近边界；执行但供人类审阅。
暂停：行为超出软性上限；进入队列，等待人类批准。
阻断：行为违反硬性约束；拒绝执行并附说明。

这一梯度避免了「完全自主」与「人类逐项批准」之间的二元陷阱。大多数组织需要的正是中间地带。

分离为什么重要

对人类而言：观察的优势

当人类被执行性事务占据（处理发票、协调排期、汇整报告）时，他们无法看见模式。他们置身于工作之内。双平面让人类从执行中释放出来，以便进行观察。这不是失去控制，而是控制层级的上移：从管理单项任务，上移到治理模式、边界与战略。

从执行中释放后，人类所能观察到的：

单一部门看不见的跨职能模式
人工智能行为中的漂移，提示约束包络需要调整
自动化监测不会标记的新兴风险
只有人类视角才能揭示的改进机会

对人工智能而言：边界所带来的确定

在一个良好定义的约束包络内，人工智能代理可以果断运作。它不必对每一项行为都进行对冲，也不必步步请示。边界已由理解组织情境的人类设定好。这与一位受信赖的员工的工作方式相似：新入职者凡事请示；受信赖的经理在理解到的边界之内运作，只就例外事项进行升级。

对组织而言：兼顾速度与问责

执行平面中的每一项行为都有记录；每一次约束检查都有留痕；每一次升级都有时间戳。由此形成的审计轨迹，相较于把决策留在走廊对话与邮件串里的传统人工流程，在问责上更为牢固。

架构原则

信任自上而下流动，观察自下而上流动。 信任与权威由信任平面流入执行；观察、度量与升级由执行平面流回至人类观察者。
约束绝不可自我修改。 人工智能代理不得扩张自身的约束包络。若它判断需要更广的权限，必须进行升级，由人类在信任平面内批准变更。
信任平面始终可达。 人类随时可以检查、修改或撤销任何信任平面配置。不存在锁死的状态。
执行默认可观测。 执行平面中的一切，对被授权的人类而言是可见的。透明是架构性的，而非可选项。
分离不等于隔绝。 两个平面相互独立但彼此连通。信任验证桥保障持续的对齐。分离带来的是清晰，而非疏远。

何时模型会失效

双平面模型存在已知的局限：

约束陈旧：若人类设定边界后从不重审，信任平面会退化为历史遗物，而非活的治理层。Dell’Acqua 等（2023）在 BCG 的研究中记录了一种相关失败模式：当 758 位管理咨询顾问在没有合适边界的情况下使用人工智能，他们在人工智能能力前沿之外的任务上表现下降了 23 个百分点。约束需要持续维护。
过度约束：不信任人工智能的人类可能把约束设得过紧，以致系统无法提供任何运营价值。这就是「人类逐项批准」的陷阱：在架构上成立，在实际中无用。分级验证模型（从自动批准到阻断）正是为此而设，但前提是人类愿意进行校准。
约束不足：过度信任人工智能的人类可能把边界放得过宽。Parasuraman 与 Riley（1997）在航空领域把这种模式记录为「自动化自满」。观察回流有所帮助，但前提是人类确实去关注它。
边界放置：该模型假设信任决策与执行决策之间存在清晰分界。在实务中，一些决策兼具两者成分。分界落在何处，取决于组织判断；而这种判断有可能出错。

实现

双平面模型通过 EATP 协议（英文）实现，后者为两个平面之间的可验证信任谱系提供密码学基础设施。EATP SDK（英文）提供用于建立、验证与审计信任谱系的可运行软件。CARE 平台（英文）实现完整的双平面架构。