衡量 Agent 的新坐标系:判断力、上下文与确认成本

 次点击
21 分钟阅读

我以为省了时间,其实只是把累从手上挪到了脑子里

最近半年我密集地用各种 Agent 工具,有一个感受越来越清晰:时间确实被压缩了,但我并没有变轻松。

说不出哪里不对。任务完成得更快了,流程更短了,可到了一天结束的时候,脑子比以前更沉。不是身体的累,是一种被掏空的感觉——判断力用完了,注意力碎了一地,再做任何一个小决定都觉得烦。

后来我想明白了一件事。

一台外科手术最贵的部分,从来不是缝合花了多久。是术中那几个瞬间——信息不完全,后果不可逆,你必须现在就做判断。整台手术的定价逻辑,其实就锚定在这几个瞬间上。

但我们给知识工作定价的方式,一直在数缝合时间。

「这个任务花了多久?」「Agent 帮你省了几分钟?」——所有人都在问这个。可这个问题本身就是错的。它假设时间是知识工作的第一瓶颈。不是。

真正稀缺的不是时间,是判断力和上下文维持能力

人的工作记忆容量极其有限。这不是比喻,是认知科学的硬约束。John Sweller 的认知负荷理论说得很直白:外在认知负荷才是拖垮效率的元凶。你大脑能同时持有的信息块就那么几个,超了就溢出,溢出就出错。

更残酷的是,判断力是一种当天不可逆的损耗。不是「累了歇一歇就好」,而是花掉就没了。Daniel Kahneman 的决策疲劳研究反复证实这一点:法官上午的假释通过率显著高于下午,不是因为下午的案子更严重,而是因为判断力被上午的案子耗尽了。

还有一个更隐蔽的杀手:注意力残留。Sophie Leroy 的研究表明,你从 A 任务切换到 B 任务之后,A 任务的认知残留会持续占用工作记忆长达 15 到 25 分钟。你以为你已经在做 B 了,但你的大脑还有一部分卡在 A 里面。

这就是为什么上下文切换的真实成本远超表面。

用公里数衡量登山难度是荒谬的。珠峰大本营到峰顶直线距离不远,但没有人会说「就几公里嘛」。海拔、含氧量、暴露风险才是真正的成本维度。

知识工作中那些「五分钟小任务」——回一封需要斟酌措辞的邮件、审一个方案的合理性、在三个选项之间做取舍——每一个都可能是认知上的珠峰最后一百米。

Cursor 的方案轰炸:把写代码的负荷变成了审代码的负荷

拿 Cursor 来说。

它很快。它生成代码的速度远超我手写。但它的交互模式是这样的:给你生成多个 diff 方案,你逐一审阅,决定接受哪个、拒绝哪个、哪里要改。

表面上看,这是「给你选择」,是尊重你的判断。实际上,它把编码的认知负荷从「写代码」转移成了「读代码 + 判断代码 + 在多个方案之间维持上下文」

后者往往更累。

Google 的工程效能研究有一个发现:高质量 code review 的认知消耗强度是写代码的 1.2 到 1.5 倍。原因很简单——你写代码的时候,思维链条是你自己构建的,你知道每一步为什么这样写。你审别人代码的时候,你要先重建他的思维链条,再叠加你自己的判断。

这就像改别人的论文 vs 自己写论文。自己写的时候脑子里有完整的逻辑线,改别人的时候你要先进入他的逻辑、理解他为什么这样写、判断这样写对不对、然后才能决定改不改。导师改学生论文比自己写还痛苦,不是因为学生写得差,是因为重建别人思维链条这件事本身就极其昂贵。

Cursor 让我从「建造者」变成了「审计员」。建造累手,审计累脑。而我的脑子比手贵得多。

认知卸载还是认知转嫁?大多数 Agent 搞反了方向

Agent 的本质价值应该是认知卸载——把心智任务外包给外部工具,释放人的工作记忆去处理更重要的事。

但我观察到的现实是,当前大多数 Agent 产品做的不是卸载,是转嫁。它们把判断负担从执行层转嫁到了审核层。

Notion AI 帮你写了一段话。很快,三秒钟就出来了。然后呢?你要通读一遍,判断它是不是你想表达的意思,决定保留、修改还是丢弃。如果你本来就有清晰的想法,这个判断过程比自己写还累——因为你要把它的表达映射到你的意图上,逐句校验偏差。如果你没有清晰的想法,它给了你一个锚定,而这个锚定可能把你带到错误的方向上。

这让我想到飞行员的自动驾驶悖论。

自动驾驶接管了 95% 的飞行操作。飞行员的认知负荷降低了 95% 吗?没有。它降低了巡航阶段的负荷,但在关键时刻——系统报警、需要人工接管——飞行员面临的是一个更恶劣的认知处境:脱离上下文之后被迫重新接管。他已经不在那个决策的「流」里了,要从零开始重建态势感知,然后在极短时间内做出判断。

认知峰值反而更高了。

Agent 把活干完让你「最后确认一下」,和自动驾驶在关键时刻把操纵杆甩回给飞行员,是同一个结构。

「确认一下」这四个字听起来很轻。但确认意味着你要重建上下文、理解它做了什么、判断它做得对不对。这不是一个轻量操作,这是一次完整的认知重启。

好的 Agent 是主厨的 tasting menu,不是 200 页的菜单

有一个反驳我必须面对:认知负荷因人而异、因状态而异、因任务熟悉度而异,根本无法标准化度量。时间虽然粗糙,但至少可比较。你说认知负荷更重要,可如果它不可测量,在商业语境下它就不存在。

我承认这个张力是真实的。

不可精确测量不等于不存在。我们无法精确测量用户体验,但没有人因此否认它的商业价值。我们无法精确测量团队士气,但每个管理者都知道它直接影响产出。认知负荷也是一样——它是真实的成本,只是还没有被纳入我们的会计体系。

而且,更深一层看,这个问题的核心其实不在度量维度,在 Agent 的交互范式。

Cursor 让我累,不仅仅是因为「时间指标错了」,更是因为它的输出方式就不对。它不该给我五个方案让我选。它该给我一个方案,然后告诉我为什么。

好的餐厅是主厨替你判断,给你一个 3 道菜的 tasting menu。不是给你一本 200 页的菜单,让你在 47 种意面之间做选择。你以为选择多是服务好,但你在点菜上消耗的心智能量,可能比吃这顿饭获得的愉悦还多。

最好的 Agent 不是给你最多选择的 Agent。是替你承担了最多判断的 Agent。

那「独裁式 Agent」呢?不给你任何选择,直接替你决定?不是这个意思。关键的区分在于:把交互的粒度从「你来判断」降到「你来确认」。判断需要重建上下文,确认只需要校验结果。这两者的认知消耗差了一个量级。

衡量 Agent 价值的新坐标系

所以我现在评估一个 Agent 工具,不再问「它帮我省了多少时间」。我问三个问题:

  • 它减少了多少判断次数? 我需要做的决定变少了,还是变多了?

  • 它降低了多少上下文切换? 我的注意力是更聚焦了,还是被它的输出打碎了?

  • 它消除了多少确认环节? 它是直接给了我结果,还是给了我一堆半成品等我验收?

真正的净价值 = 认知卸载量 - 认知注入量。

很多 Agent 的卸载量很大,但注入量也很大。一进一出,净值为零甚至为负。用户觉得「好像有用但又说不上来哪里不对」,就是这个账没算清楚。

回到最开始的类比。秘书帮你查了所有航班,然后把一个表格发给你让你自己选——查航班这个动作确实被省掉了,但真正消耗你的从来不是查,而是在价格、时间、中转、里程积分之间做权衡。

好的秘书应该直接帮你订好机票。

你只需要确认一件事:出发时间对不对。这就够了。

© 本文著作权归作者所有,未经许可不得转载使用。