衡量 Agent 的新坐标系：判断力、上下文与确认成本

我以为省了时间，其实只是把累从手上挪到了脑子里

最近半年我密集地用各种 Agent 工具，有一个感受越来越清晰：时间确实被压缩了，但我并没有变轻松。

说不出哪里不对。任务完成得更快了，流程更短了，可到了一天结束的时候，脑子比以前更沉。不是身体的累，是一种被掏空的感觉——判断力用完了，注意力碎了一地，再做任何一个小决定都觉得烦。

后来我想明白了一件事。

一台外科手术最贵的部分，从来不是缝合花了多久。是术中那几个瞬间——信息不完全，后果不可逆，你必须现在就做判断。整台手术的定价逻辑，其实就锚定在这几个瞬间上。

但我们给知识工作定价的方式，一直在数缝合时间。

「这个任务花了多久？」「Agent 帮你省了几分钟？」——所有人都在问这个。可这个问题本身就是错的。它假设时间是知识工作的第一瓶颈。不是。

真正稀缺的不是时间，是判断力和上下文维持能力

人的工作记忆容量极其有限。这不是比喻，是认知科学的硬约束。John Sweller 的认知负荷理论说得很直白：外在认知负荷才是拖垮效率的元凶。你大脑能同时持有的信息块就那么几个，超了就溢出，溢出就出错。

更残酷的是，判断力是一种当天不可逆的损耗。不是「累了歇一歇就好」，而是花掉就没了。Daniel Kahneman 的决策疲劳研究反复证实这一点：法官上午的假释通过率显著高于下午，不是因为下午的案子更严重，而是因为判断力被上午的案子耗尽了。

还有一个更隐蔽的杀手：注意力残留。Sophie Leroy 的研究表明，你从 A 任务切换到 B 任务之后，A 任务的认知残留会持续占用工作记忆长达 15 到 25 分钟。你以为你已经在做 B 了，但你的大脑还有一部分卡在 A 里面。

这就是为什么上下文切换的真实成本远超表面。

用公里数衡量登山难度是荒谬的。珠峰大本营到峰顶直线距离不远，但没有人会说「就几公里嘛」。海拔、含氧量、暴露风险才是真正的成本维度。

知识工作中那些「五分钟小任务」——回一封需要斟酌措辞的邮件、审一个方案的合理性、在三个选项之间做取舍——每一个都可能是认知上的珠峰最后一百米。

Cursor 的方案轰炸：把写代码的负荷变成了审代码的负荷

拿 Cursor 来说。

它很快。它生成代码的速度远超我手写。但它的交互模式是这样的：给你生成多个 diff 方案，你逐一审阅，决定接受哪个、拒绝哪个、哪里要改。

表面上看，这是「给你选择」，是尊重你的判断。实际上，它把编码的认知负荷从「写代码」转移成了「读代码 + 判断代码 + 在多个方案之间维持上下文」。

后者往往更累。

Google 的工程效能研究有一个发现：高质量 code review 的认知消耗强度是写代码的 1.2 到 1.5 倍。原因很简单——你写代码的时候，思维链条是你自己构建的，你知道每一步为什么这样写。你审别人代码的时候，你要先重建他的思维链条，再叠加你自己的判断。

这就像改别人的论文 vs 自己写论文。自己写的时候脑子里有完整的逻辑线，改别人的时候你要先进入他的逻辑、理解他为什么这样写、判断这样写对不对、然后才能决定改不改。导师改学生论文比自己写还痛苦，不是因为学生写得差，是因为重建别人思维链条这件事本身就极其昂贵。

Cursor 让我从「建造者」变成了「审计员」。建造累手，审计累脑。而我的脑子比手贵得多。

认知卸载还是认知转嫁？大多数 Agent 搞反了方向

Agent 的本质价值应该是认知卸载——把心智任务外包给外部工具，释放人的工作记忆去处理更重要的事。

但我观察到的现实是，当前大多数 Agent 产品做的不是卸载，是转嫁。它们把判断负担从执行层转嫁到了审核层。

Notion AI 帮你写了一段话。很快，三秒钟就出来了。然后呢？你要通读一遍，判断它是不是你想表达的意思，决定保留、修改还是丢弃。如果你本来就有清晰的想法，这个判断过程比自己写还累——因为你要把它的表达映射到你的意图上，逐句校验偏差。如果你没有清晰的想法，它给了你一个锚定，而这个锚定可能把你带到错误的方向上。

这让我想到飞行员的自动驾驶悖论。

自动驾驶接管了 95% 的飞行操作。飞行员的认知负荷降低了 95% 吗？没有。它降低了巡航阶段的负荷，但在关键时刻——系统报警、需要人工接管——飞行员面临的是一个更恶劣的认知处境：脱离上下文之后被迫重新接管。他已经不在那个决策的「流」里了，要从零开始重建态势感知，然后在极短时间内做出判断。

认知峰值反而更高了。

Agent 把活干完让你「最后确认一下」，和自动驾驶在关键时刻把操纵杆甩回给飞行员，是同一个结构。

「确认一下」这四个字听起来很轻。但确认意味着你要重建上下文、理解它做了什么、判断它做得对不对。这不是一个轻量操作，这是一次完整的认知重启。

有一个反驳我必须面对：认知负荷因人而异、因状态而异、因任务熟悉度而异，根本无法标准化度量。时间虽然粗糙，但至少可比较。你说认知负荷更重要，可如果它不可测量，在商业语境下它就不存在。

我承认这个张力是真实的。

但不可精确测量不等于不存在。我们无法精确测量用户体验，但没有人因此否认它的商业价值。我们无法精确测量团队士气，但每个管理者都知道它直接影响产出。认知负荷也是一样——它是真实的成本，只是还没有被纳入我们的会计体系。

而且，更深一层看，这个问题的核心其实不在度量维度，在 Agent 的交互范式。

Cursor 让我累，不仅仅是因为「时间指标错了」，更是因为它的输出方式就不对。它不该给我五个方案让我选。它该给我一个方案，然后告诉我为什么。

好的餐厅是主厨替你判断，给你一个 3 道菜的 tasting menu。不是给你一本 200 页的菜单，让你在 47 种意面之间做选择。你以为选择多是服务好，但你在点菜上消耗的心智能量，可能比吃这顿饭获得的愉悦还多。

最好的 Agent 不是给你最多选择的 Agent。是替你承担了最多判断的 Agent。

那「独裁式 Agent」呢？不给你任何选择，直接替你决定？不是这个意思。关键的区分在于：把交互的粒度从「你来判断」降到「你来确认」。判断需要重建上下文，确认只需要校验结果。这两者的认知消耗差了一个量级。

衡量 Agent 价值的新坐标系

所以我现在评估一个 Agent 工具，不再问「它帮我省了多少时间」。我问三个问题：

它减少了多少判断次数？ 我需要做的决定变少了，还是变多了？
它降低了多少上下文切换？ 我的注意力是更聚焦了，还是被它的输出打碎了？
它消除了多少确认环节？ 它是直接给了我结果，还是给了我一堆半成品等我验收？

真正的净价值 = 认知卸载量 - 认知注入量。

很多 Agent 的卸载量很大，但注入量也很大。一进一出，净值为零甚至为负。用户觉得「好像有用但又说不上来哪里不对」，就是这个账没算清楚。

回到最开始的类比。秘书帮你查了所有航班，然后把一个表格发给你让你自己选——查航班这个动作确实被省掉了，但真正消耗你的从来不是查，而是在价格、时间、中转、里程积分之间做权衡。

好的秘书应该直接帮你订好机票。

你只需要确认一件事：出发时间对不对。这就够了。

站内导航