智能体的第4个阶段，到来了！|唐霜

大家好，写博客的时间越来越少了，我尽可能保持每周都写点东西。我上一篇公众号写了Manus智能体，openManus项目很快就火了，上周，字节发布了它们的开源项目Agent TARS，我认为字节内部行动真的很快。目前这个项目发布了桌面端，内置了浏览器的操作工具，同时接入了MCP，将来可以调用非常多的本地电脑工具。随着类似项目的越来越成熟，我能感觉到，智能体的第4个阶段，已经到来了。

智能体的前3个阶段

这里所说的智能体，主要是指基于LLM的智能体，因为Agent这个词进入大众视野，是LLM得到广泛认可后才火的，在此前的AI发展历程中，人们并不是很认可Agent技术路线，直到LLM的出现，Agent技术才可能成为真正服务于普通人的技术。因此，我们所说的“智能体发展阶段”是从2023年开始，到现在也不过短短2年多时间，虽然现在划分阶段为时尚早，但是从技术层面讲，这种阶段性变化是真存在的，因此我们需要像陈述事实一样，对过去2年的发展做一个简单的梳理。

第1阶段：系统提示词

这是由OpenAI定义的，他们在chatGPT中设计了一种让同一个chat在单一系统提示词下工作的产品形态，随后，这种产品形态被全部LLM厂商学习。简单讲，这个阶段的智能体只是在chatbot的基础上增加了用户预设，避免chatbot随意发挥，没有边界。这种智能体形态其实应用非常广泛，特别是在一些让AI做角色扮演的场景，例如有一款叫“星野”的App，预设了非常多的人物角色，当你和它们聊天时，自带了人物角色特性。

第2阶段：初级工具集成

在2023年，就出现了集成LLM和工具的自主决策Agent项目，我印象最深的是AutoGPT，它可以分析用户意图，并调用python来实现一些功能。这一阶段的智能体，实现了初级工具集成，在字节的coze平台上，智能体把官方和用户们共同提供的插件作为工具，智能体可以自主决定使用哪一个工具作为本次对话的执行。

第3阶段：多智能体架构

当开发者们发现，特定提示词配合特定工具集时，智能体能在某些方面表现的非常优异，而多加或少加工具，都会让智能体性能大打折扣，于是他们决定，由多个智能体大包成一个复合智能体来向用户提供通用性的智能体产品。这一阶段的爆款级产品是AI程序员Devin，它可以完成复杂的研发任务，而它的工作原理，就是在内部实现了角色分工，把我们研发任务中的程序员、项目经理等角色，分属给不同内部智能体，让他们在一个社群里协同完成编程目标。然而，多智能体架构的巨大缺陷在于，这些智能体可能会在社群里形成不统一意见，发生“争吵”没完没了，最后一直无法推进工作，或者给出质量很差的结果。

视觉识别方案

2024年初，苹果被爆正在开发AI原生的操作系统，期间苹果下场发布了一款基于视觉识别手机屏幕的大模型，这件事我在公众号发文章提到过。时间来到2024年下半年，智普AI推出了AutoGML，实现了在安卓手机上自动操控手机的能力，这标志着基于视觉方案的智能体已被验证可行。

视觉识别分为低配版和高配版。低配版是截图方案，通过对屏幕进行截图和视觉大模型的理解，来让智能体意识到当前电脑或手机的状态，按钮的位置，鼠标位置等等信息，再让大模型基于这些信息，以及前置的用户目标和当前进度，来决定应该如何操作设备。通过模拟用户点击屏幕的形式，来完成一系列的处理。高配版本则是系统级别的，也就是苹果提出的那套模型方案，把设备、屏幕、应用的实时信息从系统层面交给大模型，这样就解决了截图方案的延时和算力问题。

大规模工具集成

翻过年头，2025年，Manus的凭空火爆，则在工具集成上验证了单一智能体大规模集成工具的可行性。实际上，LLM厂商们，都设计了function calling，开发者们本可以利用该特性设计自己的智能体，但是，事实上，这一特性并没有被广泛接受，时至今日，已处于尴尬的境地。智能体厂商Agency们都选择了自建工具调用的范式，直到Claude母公司Anthropic提出MCP协议，整个市场进入了工具集成的标准化阶段。

虽然人们对智能体的幻想是，让它像一个人一样与我们交流，帮助我们调用电脑上的一切，完成我们的工作、创意、编码、查询、下订单等等听上去是脏活累活的事。然而实际上，当下的智能体仍然无法直接调用我们电脑上的软件来完成我们想要的工作。例如财务们必备的excel表格，智能体无法正确操作，甚至根本无法打开这个软件。开发者们想了一个曲线救国的办法，就是让智能体自己写python代码来实现一个软件以获得其他软件的相同功能，python可以通过CLI调用系统层面的一些能力，也可以自主安装node、rust等生态的工具来实现目标。

早在2023年，就出现了基于大模型的浏览器插件，该插件可以通过脚本的形式控制浏览器，根据用户的提示，自主完成网页操作。而2025年的现在，我们以及完全掌握了基于python来控制浏览器的能力，这得益于已有的开源项目，例如browser-use, playwright等项目。不过，智能体想要调用本地软件，例如office365套件，仍然是不行的。我以前在腾讯的时候，我参与过一个项目，虽然我不是主导，但是我知道主导团队在他们的系统内通过暴露API的方式，让大模型程序可以调用，从而实现自能操控低代码平台的能力。

直到MCP协议的出现，这种智能体无法调用本地软件的窘境，可能会慢慢成为过去。简单讲，本地软件的服务商向Agency提供一个MCP服务器，Agent开发者们就可以无痛甚至无感的让自己的智能体调用软件的功能。比如美团、大众点评、携程、飞猪等旅游、美食下单的应用，最适合这种场景，以解决用户日常消费出行的智能化。MCP是C/S架构，其中C是指软件方，S是提供给智能体调用的服务器，当然C也要连到S听从调令。一旦MCP成为新的行业标准，那么藩镇割据军阀混战的时代就会快速结束，开发者们可以专心致志的在Agent和软件两端沉下心来做研发。而智能体也将迎来大规模工具集成的大爆发。

准智能体时代畅想

从理想状态讲，将来的软件开发，不仅要提供UI，还要提供AUI，也就是面向AI Agent的MCP服务器。UI是为传统使用方式服务的，而AUI则是为智能化交互方式准备的。这可能正是我很早就说过的“面向AI开发”，也就是说，未来，开发者们不一定需要去做toC或toB的产品，而是可以通过做toA的产品来赚钱，甚至，未来的产品，必须配备toA的能力，否则都无法获得用户。

对于终端用户来说，最理想的，是每个用户只需要配备一个Agent，这个Agent可以在任何设备上连接，例如电脑、手机、蓝牙耳机、眼镜等，用户的任何需求，都只需要向这一个Agent发出即可。而Agent则基于MCP去对接各种服务提供商，比如订机票、点外卖等等。我猜测，到时候，Agency公司和背后的上游服务商（如美团、携程等）之间既是合作关系也有竞争关系，因为虽然Agency公司需要向上游服务商付钱才能接入，但是新的交互方式可能让这些服务商的App用户迅速减少甚至让美团这样的公司成为无App的服务提供商。还有就是，我猜想一个好玩的场景，就是美团和携程在用户同一个需求下，会形成竞争关系，Agency会如何去决定订酒店这个需求是用美团的还是携程的呢？这是一个好玩的话题。同理，这种单一Agent入口的交互形式，还会杀死搜索引擎、门户新闻等传统互联网业态，不过好玩的是，SEO行业会去思考如何让自己的内容被Agent挑中，以及整个生态中，Agency要考虑的广告应该如何植入等等有趣的话题。

另外就是，普通用户幻想的机器人，也会因为智能体技术加持而提前到来。在《银翼杀手2049》中，男主角有一个AI女友，她没有实体，是纯软件形态，而如果随着机器人技术的持续发展，未来赋予她实体，机器人+智能体=？这虽然有点科幻，但是对于当前的技术来讲，是完全可以实现的，只不过性能没有那么丝滑而已。对于某些不可描述的行业来说，他们早就开始在娃娃们体内植入了可发生的AI智能体，也就是说，对于宅男来说，他们的好朋友除了不会动以外，可以在软件层面帮他们完成任何事，比如点外卖，比如用声音帮他们排解空虚……实在不可描述……

结语

好了，不知不觉，已经写到深夜两点了。我对AI的态度是积极的，我以前遇到过的一些人比较守旧，总是认为“这有啥，没卵用”，然而，随着AI逐渐成为我们生活工作的一部分，我们会慢慢习惯。虽然目前来说，AI的应用主要是对传统软件功能的升级，但是，我相信随着越来越多技术的整合，上文所描述的沉浸式AI新交互体验一定会实现，只不过是时间问题。当然，我们其实还需要考虑一些风险问题，包括但不限于对伦理的挑战，对人类生存的挑战，对贫富悬殊的挑战等等。虽然风险是存在的，但是，我们应该秉持着风险，积极的拥抱未来，何况，未来已来。

2025-03-25 131

唐霜

智能体的第4个阶段，到来了！