跳转到内容

双平面模型

当承担工作的系统同时为这些工作制定规则时,问责便会瓦解。这并非理论上的担忧,而是每一个将执行与治理混同的系统都被观察到的失败模式:从公司丑闻(安然的风险管理部门向产生风险的业务部门汇报),到算法造成的伤害(推荐系统为互动率而优化,却没有外部约束来界定「互动」可以付出何种代价)。

双平面模型是针对这一观察的设计回应。它把组织分离为两个在架构上彼此独立的平面:一个信任平面,由人类界定边界、价值与问责;一个执行平面,人工智能代理在这些边界之内运作。

这一分离是一项规范性选择,而非本体论上的发现。它是一项设计决定:从架构上使执行无法修改自身的约束。

信任平面属于人类,以下事项归属其中:

  • 问责:当事情出错时,由谁负责?
  • 价值:本组织视何者为重要?
  • 边界:什么永远不应被自动化?什么可以?
  • 社会契约:人与人、团队与团队、部门与部门之间关于如何开展工作的约定。

没有任何人工智能代理在信任平面内运作,没有任何算法在此设定边界。由人类承担这项工作,因为它要求判断力——那种源自亲身经验、组织记忆与道德思辨的判断力。

信任平面要素描述为什么由人类承担
约束定义财务上限、数据访问规则需要组织层面的判断
升级策略人工智能何时必须让位于人类需要对风险容忍度的理解
知识访问控制谁可以看见哪些信息反映信息敏感性规范
目标设定本组织意图实现什么需要战略视野
信任谱系定义权限委派层级映射人类组织权威

执行平面是工作发生的地方。人工智能代理在此运作,处于信任平面所设定的边界之内。这是一个共享的场域——人类随时可以观察、介入并重新引导。

执行平面中发生的事情:

  • 任务分解与调度
  • 信息采集与综合
  • 跨职能协调(在既定规则内)
  • 进度跟踪与报告
  • 不确定性识别与升级准备
  • 知识检索与应用

执行平面之所以有效,正是因为它是有界的。一个明确了自身约束的人工智能代理可以在其中从容运作。它不必在每一次行动前停下来追问「我是否被允许这样做」。约束包络已经替它回答了这个问题。

约束包络从五个维度界定人工智能代理的运作边界。每个维度都以人类判断为依据,针对特定类别的组织风险。

维度所控制的内容示例
财务交易上限、支出权限、预算范围每笔自主交易不超过 5,000 美元
运营行为类型、工具访问、决策权限可以下单,不可以签订合同
时间运作时段、截止期限权限、调度范围仅在工作时段活跃;48 小时后升级
数据访问信息分级、隐私边界可读取公开数据;不得访问人事档案
通信联系权限、渠道限制、受众范围可在团队内发送邮件;对外通信须经批准

包络之内的行为属于预先授权。超出者须经人类批准。包络的作用如同一份预先签署的授权:凡在边界之内者,已经被批准。

两个平面之间是信任验证桥,这一机制使执行持续锚定于信任之上。执行平面中每一项重要行为都会经过验证。

人类意图(信任平面)
|
v
约束包络 --- 界定边界
|
v
信任验证桥 --- 检查每一项行为
|
v
执行(执行平面)--- 验证通过则继续
|
v
观察回流 --- 返回至人类

验证并非瓶颈,而是一项预先计算的授权检查。由于约束是提前定义好的,信任验证桥可以对大多数行为即时验证。四种验证类别覆盖了从常规到例外的梯度:

  1. 自动批准:行为在约束包络之内;留痕但不延迟。
  2. 被标记:行为接近边界;执行但供人类审阅。
  3. 暂停:行为超出软性上限;进入队列,等待人类批准。
  4. 阻断:行为违反硬性约束;拒绝执行并附说明。

这一梯度避免了「完全自主」与「人类逐项批准」之间的二元陷阱。大多数组织需要的正是中间地带。

当人类被执行性事务占据(处理发票、协调排期、汇整报告)时,他们无法看见模式。他们置身于工作之内。双平面让人类从执行中释放出来,以便进行观察。这不是失去控制,而是控制层级的上移:从管理单项任务,上移到治理模式、边界与战略。

从执行中释放后,人类所能观察到的:

  • 单一部门看不见的跨职能模式
  • 人工智能行为中的漂移,提示约束包络需要调整
  • 自动化监测不会标记的新兴风险
  • 只有人类视角才能揭示的改进机会

对人工智能而言:边界所带来的确定

Section titled “对人工智能而言:边界所带来的确定”

在一个良好定义的约束包络内,人工智能代理可以果断运作。它不必对每一项行为都进行对冲,也不必步步请示。边界已由理解组织情境的人类设定好。这与一位受信赖的员工的工作方式相似:新入职者凡事请示;受信赖的经理在理解到的边界之内运作,只就例外事项进行升级。

执行平面中的每一项行为都有记录;每一次约束检查都有留痕;每一次升级都有时间戳。由此形成的审计轨迹,相较于把决策留在走廊对话与邮件串里的传统人工流程,在问责上更为牢固。

  1. 信任自上而下流动,观察自下而上流动。 信任与权威由信任平面流入执行;观察、度量与升级由执行平面流回至人类观察者。

  2. 约束绝不可自我修改。 人工智能代理不得扩张自身的约束包络。若它判断需要更广的权限,必须进行升级,由人类在信任平面内批准变更。

  3. 信任平面始终可达。 人类随时可以检查、修改或撤销任何信任平面配置。不存在锁死的状态。

  4. 执行默认可观测。 执行平面中的一切,对被授权的人类而言是可见的。透明是架构性的,而非可选项。

  5. 分离不等于隔绝。 两个平面相互独立但彼此连通。信任验证桥保障持续的对齐。分离带来的是清晰,而非疏远。

双平面模型存在已知的局限:

  • 约束陈旧:若人类设定边界后从不重审,信任平面会退化为历史遗物,而非活的治理层。Dell’Acqua 等(2023)在 BCG 的研究中记录了一种相关失败模式:当 758 位管理咨询顾问在没有合适边界的情况下使用人工智能,他们在人工智能能力前沿之外的任务上表现下降了 23 个百分点。约束需要持续维护。
  • 过度约束:不信任人工智能的人类可能把约束设得过紧,以致系统无法提供任何运营价值。这就是「人类逐项批准」的陷阱:在架构上成立,在实际中无用。分级验证模型(从自动批准到阻断)正是为此而设,但前提是人类愿意进行校准。
  • 约束不足:过度信任人工智能的人类可能把边界放得过宽。Parasuraman 与 Riley(1997)在航空领域把这种模式记录为「自动化自满」。观察回流有所帮助,但前提是人类确实去关注它。
  • 边界放置:该模型假设信任决策与执行决策之间存在清晰分界。在实务中,一些决策兼具两者成分。分界落在何处,取决于组织判断;而这种判断有可能出错。

双平面模型通过 EATP 协议(英文)实现,后者为两个平面之间的可验证信任谱系提供密码学基础设施。EATP SDK(英文)提供用于建立、验证与审计信任谱系的可运行软件。CARE 平台(英文)实现完整的双平面架构。