Android 和 iOS 之后,下一代 Agent OS 的搅局者在哪里?

 次点击
19 分钟阅读

最近我一直在 OpenClaw 上做技术调研。起因很具体:如果要扮演一个类似 Agent App Store 的角色,底层到底应该怎么定义一个「App」——它需要拥有什么权限,能达到什么功能,要注册哪些能力,要声明哪些信息。越往下挖,我越觉得不对劲。这个问题不断下沉,从分发层掉进了运行时,从运行时又掉进了更深的地方。我意识到自己撞上的不是一个功能设计问题,而是一个时代判断——在 Android 和 iOS 之后,下一代 Agent OS 到底会从哪里长出来。

这两件事表面上是两个层级的问题,但我越想越觉得它们是同一个东西。你没办法定义一个 Agent App 该长什么样,如果你不先回答它跑在什么样的系统上。

Android 和 iOS 真正完成的事:把硬件变成可以运行 App 的平台

回头看 Android 和 iOS,会发现它们真正完成的事情,不是把手机界面做得更漂亮。

它们做的是发明了一套组织能力的方式。一个 App 要先声明自己需要什么,系统提供存储、网络、权限、通知这些基础设施,App 与 App 之间还能松耦合地互相调用。你在浏览器点击一个地址,系统自动弹出地图 App 列表让你选择——这不是硬编码的跳转,而是基于 Intent 声明的能力匹配。开发者不需要重复造基础设施,用户也不需要理解底层实现。

OS 是中间层,不是功能层。 它的价值不在于自己能做什么,而在于它让别人能做什么、怎么做、以及怎么跟其他人配合着做。

这个判断很重要,因为它直接决定了下一个问题的答案。

Agent 生态的断裂现状:零件都在,但没有被组织起来

今天的 Agent 世界已经有很多能力了,但还没有真正意义上的 OS。

我们有工作流编排器,有 Agent 框架,也开始有长期记忆系统。但它们更像是彼此割裂的零件:

  • 工作流能跑一次,却很难被安装和积累

  • Agent 能推理和协作,却很难跨 session 留下真正可复用的产物

  • 记忆系统能存东西,却还不是一个完整的 App 运行环境

拿 Zapier 和 Make 来说,它们是工作流编排器,能把 A 工具的输出接到 B 工具的输入,但它们不具备 Agent 的推理能力——无法根据上下文决定该不该跳过某个步骤、该不该换一个策略。它们是管道,不是操作系统。再看 Anthropic 推出的 MCP,它试图标准化 Agent 与外部工具的连接方式,像是在做 Agent 世界的 USB 接口标准,但它解决的是连接问题,还没有触及生命周期管理、记忆治理和能力声明的完整 OS 层。

整个生态像 1995 年的互联网:有浏览器(Agent 框架)、有网页(工作流)、有拨号上网(API 调用),但还没有搜索引擎(意图路由)、没有 HTTP 标准化(能力声明协议)、没有 Cookie(跨 session 记忆)。基础设施的每一块都在,但还没有被一个统一的架构组织起来。

举一个我自己每天都在经历的断裂:我用自己做的软件写文章,用 nano Banana 生图,用剪映做视频,然后手动登录各平台发布。每个工具都很强,但它们之间没有共享的意图协议、没有统一的认证体系、没有跨工具的记忆——比如「我上次发的风格偏好是什么」,每次都要从零开始告诉每一个工具。这不是某个产品做得不好的问题,这是缺一个系统层的问题。

GUI-first 的架构债:不是加一层能解决的

有人会说,Apple 和 Google 不是已经在做了吗?Apple 有 App Intents 框架,Google 在推 Gemini 与 Android 的深度整合,Salesforce 有 Agentforce,Microsoft 有 Copilot Studio。大厂在动了。

但我越看这些方案,越觉得它们是在旧架构上打补丁。

现有 App 的每一个操作对应一个界面元素。 这是 GUI-first 架构的根本假设——操作者是人类,人类通过点击、滑动、输入来完成任务。Agent 要完成同样的任务,得模拟大量 GUI 操作,或者等着每个 App 开发者手动把自己的功能包装成 API。这不是 bug,这是根本性的架构债。

GUI 假设操作者是人类,Agent 假设操作者是智能体。这两个假设不兼容。

这让我想到一个类比:从电报到电话。电报时代的基础设施——电报线路、编码员、中转站——不能通过改造变成电话网络,因为底层假设完全不同。电报假设信息是离散编码的文本,电话假设信息是连续的语音流。你不能在马车上装发动机造出汽车。

App Intents、Instant Apps、App Clips,这些都是传统 OS 试图让 App 变得更轻量、更可调用的尝试,但本质上还是在 GUI 框架内打补丁。它们没有从根本上解决一个问题:能力应该被声明和调用,而不是被点击和浏览。

而且还有一个更隐蔽的阻力:商业模式冲突。现有 App 的商业模式建立在用户注意力和操作路径上——广告、订阅、增值功能,全都依赖用户「在 App 里待着」。Agent 化意味着绕过 GUI 直接调用能力,这会摧毁现有的注意力经济模型。让现有平台自我革命?动力不足。

Agent OS 必须回答的四个系统设计问题

如果下一代 Agent OS 真的会出现,它至少要回答四件事。不是愿望清单,是 Day 1 就绕不过去的硬问题。

问题 1 - 声明:一个 Agent App 如何被系统认识

Android 有 AndroidManifest.xml,定义了一个 App 的权限、入口、能力声明。Agent OS 需要一套等价物——不是描述界面布局,而是声明这个 Agent 能处理什么意图、输入输出格式是什么、依赖哪些外部能力、需要访问什么级别的记忆。

Manifest 声明机制之于 Agent App,就像 DNS 之于互联网。 DNS 让你不需要记住 IP 地址就能访问网站,Manifest 让系统不需要理解 Agent 的内部实现就能知道它能做什么、需要什么、怎么调用。这是把混沌变成可寻址、可组合的关键抽象。

问题 2 - 能力暴露:一个能力如何被标准化地调用

操作系统提供 read/write/execute 这样的基础原语,Agent OS 需要定义自己的能力原语——比如 summarize、generate、distribute、evaluate。不是每个 Agent 自己发明一套接口,而是有一层标准化的能力描述,让 Agent App 可以被发现、被组合、被替换。

你说「帮我把这篇文章做成短视频发到三个平台」,系统应该能自动路由到内容生成 Agent、视频渲染 Agent、分发 Agent,并编排执行顺序。这不是硬编码的工作流,而是基于能力声明的动态匹配——Android 的 Intent 路由的高阶版本。

问题 3 - 记忆治理:运行中产生的偏好、决策和经验如何变成系统级资产

这可能是 Agent OS 与传统 OS 最本质的区别点

当前 Agent 的对话是无状态的或弱状态的,类似于 HTTP 的无状态协议。但一个真正有用的 Agent,需要记住我的偏好、我的历史决策、我上次犯的错误。Agent OS 需要提供类似 cookie/session/database 的分层持久化机制,让这些信息可以跨任务存活。

而且这套记忆不是传统数据库的 CRUD。它需要带有来源追溯、置信度、时效性和治理权限——谁写入的、基于什么推理、是否可以被其他 Agent 引用、用户是否授权共享。可审计记忆,这是一个全新的系统级概念。

这里面还藏着一个产权问题:如果一个 Agent 帮我做了 100 次市场调研后积累了关于我行业的深度认知,这些记忆属于谁?属于我、属于 Agent 开发者、还是属于平台?这个问题不解决,记忆的可共享和可治理就是空谈。

问题 4 - 生命周期:Agent App 如何被安装、升级、卸载

传统 App 安装是把代码下载到本地。但 Agent App 可能是云端的、分布式的、甚至是动态生成的。那「安装」是不是应该重新定义为注册一组能力声明到系统的能力图谱中

更棘手的是「卸载」。传统 App 卸载就是删除代码和数据。但 Agent 的状态是持续演化的——它积累了记忆、形成了偏好、做过的决策影响了其他 Agent 的行为。卸载一个 Agent,是只删除它的能力注册,还是要清除它留下的所有记忆痕迹?如果其他 Agent 已经引用了它的输出呢?

这不是边缘 case,这是 Agent 生命周期管理的核心难题。

搅局者的画像:不是最强的模型,而是最先定义「组织方式」的那个

有一种声音说:Agent OS 可能根本不需要存在。LLM 本身就是 OS。当模型足够强大,它可以直接理解用户意图、自主调用 API、管理上下文,不需要额外的中间层。

这个反驳听起来有力,但经不起推敲。即使模型再强,多 Agent 协作、能力标准化、记忆治理这些系统性问题仍然需要一个协调层。一个人再聪明,也不能替代一套法律体系和市场机制。智能不等于秩序。

还有人说,标准化会扼杀创新,现在应该让一千种 Agent 框架野蛮生长。这话有道理,但反过来看,Android 和 iOS 也不是在所有 App 形态成熟后才出现的——它们是和 App 生态共同演化出来的。OS 不是等生态长好了再盖的屋顶,它是和生态一起长的骨架。

iOS 不是发明了新能力,而是发明了组织能力的方式。

功能机时代也能装 Java 小程序、也能上网、也能玩游戏,但每个能力都是孤岛,没有统一的权限模型、没有 App 间通信、没有生命周期管理。iOS 做的事情是把这些孤岛连成了大陆。

所以我的判断是:下一代 Agent OS 的搅局者,胜出的关键不在算力,不在谁的模型更大更强。关键在于谁先把混沌变成可寻址、可组合、可治理的系统。

它大概率不会从现有操作系统的改良中诞生——就像 iOS 不是从功能机的 Java 小程序进化而来的,而是重新定义了「什么叫一个 App」。下一代 Agent OS 要重新定义的是:什么叫一个 Agent App,什么叫能力,什么叫记忆,什么叫安装。

它可能先从一个垂直场景长出来——内容创作者的自动化工作流,或者销售团队的客户分析链路——然后逐渐抽象出通用的系统层。就像 Android 一开始是为手机设计的,不是为所有设备设计的。

我们现在围绕 manifest、Intent、记忆分层、runtime 注入和生命周期管理做的思考,本质上都在逼近这个东西。它还没有名字,还没有形状,但裂缝已经在那里了。

架构债的裂缝,就是新物种的入口。

© 本文著作权归作者所有,未经许可不得转载使用。