Album

AI有点意思

用大白话聊透AI硬核知识,帮你轻松跟上时代浪潮

JingyuS、Leksah、zhenlohuang JingyuS, Leksah, zhenlohuang
1,435 订阅 44 集 1天前
播客简介
AI很难懂吗?恰恰相反,它很有意思!欢迎收听艾斯派索(Aispresso)《AI有点意思》,一档超好懂的AI科普播客。在这里没有复杂的代码和术语,我将像你的朋友一样,每期花几分钟,从你爱刷的抖音、逛的淘宝聊起,用最好玩的故事和比喻,带你轻松get到身边AI的奇妙之处。快来,一起发现科技的乐趣吧!
节目
S3E05: Agent能操控电脑和浏览器了!——Computer Use + WebMCP

S3E05: Agent能操控电脑和浏览器了!——Computer Use + WebMCP

AI有点意思

大家好,欢迎回到《AI有点意思》。我是小艾。 前几期我们聊了Agent的定义、工具箱、记忆力和规划能力。这一期,我们来聊一个真正让你觉得“AI要成精了”的话题——Agent直接操控你的电脑和浏览器。 你想象一下这个场景:你正在做一份学校活动的Excel表格,里面有几十个人的报名信息。你希望把这堆数据整理成一份漂亮的报告,然后上传到一个网页系统里。以前你要手动做图表、写总结、打开浏览器、登录、上传……一套流程下来至少半小时。 但如果你的电脑里有一个Agent,你只需要说一句话:帮我把这份Excel整理成报告,然后上传到那个网页。接下来,你的Agent会自己打开Excel,选中数据、生成图表、写出分析文字;然后自动打开浏览器,输入账号密码登录,找到上传入口,把文件拖进去,点击提交。全程你只需要端着咖啡在旁边看着。 这不是科幻电影。2026年,这项技术已经变成现实了。今天我们就来拆解两个让Agent“长出手脚”的革命性技术:Anthropic的Computer Use和谷歌的WebMCP。 我们先从第一个讲起:Computer Use。 Computer Use是AI公司Anthropic在2026年3月为Claude模型增加的一项新能力。名字很直白——让AI学会“使用电脑”。怎么用的呢?它的工作方式跟我们人类操作电脑几乎一模一样。 想象一下,你坐在电脑前,眼睛看着屏幕,脑子里决定“我要点那个按钮”,然后手移动鼠标、点击。Computer Use也是这个逻辑:Agent可以截取你电脑屏幕的截图,用视觉模型识别出屏幕上有什么——哪里有按钮、哪里是输入框、哪里是文件图标。然后,它像人一样决定“我要点这里”、“我要在那里打字”,最后通过底层的系统接口控制鼠标移动、点击、键盘输入。整个过程不需要软件开发者提前给Agent开后门,不需要专门写API,Agent像一个新来的实习生,直接看着屏幕学着操作你的任何软件。 这意味着什么?意味着Agent不再局限于那些专门为它开放接口的应用程序了。你电脑上任何一个软件——老旧的财务系统、学校的内网平台、甚至是一个古董级的单机游戏,只要是人能操作的,Agent就能操作。因为对Agent来说,它看到的和你看到的是同一张屏幕截图。 当然,Computer Use也有它的局限性。因为它要靠“看”屏幕来操作,所以速度比较慢。每一次截图、识别、移动鼠标、点击,都需要时间。而且如果屏幕分辨率变化、窗口大小调整,它可能会“看花眼”,点错地方。这就像你闭着眼睛操作电脑,只靠别人描述屏幕内容给你听——虽然能做,但肯定不如自己直接上手快。 于是,第二个技术登场了:WebMCP。 WebMCP是谷歌Chrome团队在2026年2月发布的一个协议。它的全称是Web Model Context Protocol,专门用来解决Agent操作网页的效率问题。 你想想,Agent操作网页时,如果用Computer Use的方式,那就是“模仿人类”:看屏幕截图、找登录按钮、移动鼠标点击、找用户名输入框、打字……每一步都很慢。而且网页经常改版,按钮换个位置,Agent可能就找不到了。 WebMCP换了一种思路:不让Agent“装成人”,而是让Agent直接和网页的“底层代码”对话。打个比方,普通人进一个网站,需要看导航栏、找链接、点来点去。但如果你是网站的内部管理员,你直接拿数据库查数据、用后台接口发指令,几秒钟就能搞定别人花十分钟的操作。WebMCP就是给Agent开通了这条“管理员通道”。 有了WebMCP,Agent可以通过Chrome浏览器提供的API,直接读取网页的结构化信息、直接提交表单、直接触发按钮事件,完全不需要模拟鼠标点击和屏幕截图。订机票的时候,Agent只需要向航空公司的网站底层发送一个指令:查询5月20日北京到上海的航班,网站直接返回数据,整个过程不超过两秒钟。而且无论网站怎么改版,只要底层接口不变,Agent都能正常工作。 目前,WebMCP已经被集成到Chrome浏览器的稳定版本中,任何安装了Chrome的用户都可以通过浏览器扩展或者开发者工具来让Agent使用这个能力。国内的360浏览器、QQ浏览器等基于Chromium内核的浏览器,也在跟进支持。 那么,如果把Computer Use和WebMCP结合起来,会发生什么呢? 我们回到开头的例子。你的Agent需要完成“整理Excel并上传网页”这个任务。它会这样分工:当需要操作Excel这个桌面软件时,它启用Computer Use模式——看屏幕截图,移动鼠标,选中数据,生成图表。当需要操作网页时,它切换到WebMCP模式——直接通过浏览器底层API登录、上传,几秒钟搞定。两种模式无缝切换,你完全感觉不到区别。 目前,已经有不少开源项目在尝试融合这两种技术。比如browser-use这个项目,专门做浏览器自动化,同时支持传统的模拟点击和新的WebMCP协议;还有OpenClaw的最新版本,也在尝试引入Computer Use能力,让它的全平台控制从“支持API的软件”扩展到“任何桌面软件”。 当然,这些强大的能力也带来了新的风险。当Agent可以操作你的整个电脑、可以模拟鼠标键盘、可以直接和网页底层交互时,一旦被恶意利用,后果不堪设想。比如一个恶意的Agent可以偷偷把你的文件上传到陌生服务器,或者冒充你登录网银转账。这也是为什么像Anthropic和谷歌在推出这些功能的同时,都设置了严格的权限控制——每次Agent要进行敏感操作(比如输入密码、访问个人文件夹),都需要弹出窗口让用户确认。安全问题我们会在后面单独用一整期来聊。 现在我们总结一下今天的核心要点。 第一,Computer Use让Agent通过“看屏幕截图+模拟鼠标键盘”的方式,像人一样操作任何桌面软件,不需要软件提前开放接口。它的优点是通用性强,缺点是速度较慢,且容易受界面变化影响。 第二,WebMCP是谷歌Chrome推出的协议,让Agent通过浏览器底层API直接和网页“对话”,不需要模拟点击。它的优点是速度快、稳定,缺点是目前只适用于Chrome浏览器及其内核的浏览器,不能操作桌面软件。 第三,两者结合可以实现真正的“全自动化”——桌面软件用Computer Use操作,网页用WebMCP操作,Agent可以完成从数据处理到网络提交的一站式任务。 第四,这些技术大大扩展了Agent的应用场景,但也带来了安全风险。权限控制和用户确认机制是必不可少的护栏。 下一期,我们会聊一个更有趣的话题——多Agent系统。如果一个Agent不够用,那就来一群!多个Agent怎么像团队一样协作完成任务?它们之间会吵架吗?怎么分工?我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。

8分钟
55
1天前
S3E04: Agent怎么给自己列计划?——拆解任务与自我纠错

S3E04: Agent怎么给自己列计划?——拆解任务与自我纠错

AI有点意思

大家好,欢迎回到《AI有点意思》。我是小艾。 前几期我们聊了Agent的定义、工具箱和记忆力。这一期,我们来聊一个特别有意思的能力——做计划。 你可能会想:做计划有什么稀奇的?我自己也会做啊。但你想过没有,当你对Agent说“帮我组织一次班级春游”或者“帮我策划一个生日派对”,它可不是随口给你几条建议就完事了。它会像一个真正的项目经理那样,自己把大任务拆成小步骤,一步一步执行,中间出了问题还能自己调整。 这就是Agent的规划能力。今天我们就来拆解它到底是怎么做到的。 我们先从一个生活化的例子开始:做番茄炒蛋。 假如你从来不会做这道菜,但是有一个智能厨房Agent,你对它说:“帮我做一盘番茄炒蛋。”它会怎么反应? 首先,它不会直接去开火。它会先在脑子里把任务拆解成几步:第一步,准备食材——鸡蛋、番茄、油、盐、糖;第二步,处理食材——番茄切块,鸡蛋打散;第三步,炒鸡蛋,盛出来;第四步,炒番茄,然后把鸡蛋倒回去一起炒;第五步,加盐加糖,出锅。 你看,一个看似简单的指令,背后其实隐藏着一串子任务。Agent要能够识别出这些子任务,并且按正确的顺序执行。这就像你早上起床后,不需要别人提醒就知道要先刷牙再洗脸,而不是先吃早饭再刷牙——因为你的大脑已经自动规划好了顺序。 在AI领域,这种把大任务拆成小步骤的能力,叫做任务分解。而任务分解背后的技术,有一个很酷的名字——思维链。 思维链这个概念最早由谷歌研究人员在2022年提出。它是什么意思呢?简单说,就是让AI不直接给出答案,而是先把思考过程一步一步写出来,就像我们做数学题时要写“解:因为……所以……”一样。 举个例子。你问一个普通AI:“小明有5个苹果,给了小红两个,又买了3个,现在有多少个?”它可能会直接蹦出答案“6个”。但如果是用了思维链的AI,它会先写出步骤:5减2等于3,3加3等于6,所以答案是6。这个中间的推理过程,就是思维链。 为什么要这么做呢?因为很多复杂任务不是一步就能完成的,强行直接给答案很容易出错。让AI把思考过程写出来,一来可以提高准确性,二来我们可以看出它哪里想错了,方便调试。更重要的是,思维链是Agent做规划的基础——它必须先在大脑里“想清楚”步骤,才能去执行。 那么,Agent有了任务分解 and 思维链之后,是不是就能完美执行所有计划了呢?还不行。因为现实世界里总有意外。 回到班级春游的例子。你让Agent帮你组织春游,它拆解出的步骤可能是:确定日期→查景点→算预算→订大巴→发通知。一切都安排得明明白白。可是,当它执行到“查景点”这一步时,发现你最想去的那个植物园当天已经被其他学校包场了,订不到了。这时候怎么办? 一个只会死板执行计划的Agent,可能会卡在这里,然后告诉你:“抱歉,植物园订满了,任务失败。”但一个好的Agent会启动自我纠错机制。 它会自己判断:植物园没了,那我换个类似的景点行不行?比如旁边的动物园、科技馆或者湿地公园。它会重新搜索附近可预订的景点,找到一个备选,然后继续后面的步骤。它甚至可能会回头调整预算——如果备选景点门票更贵,它需要重新算一下总费用,看看是否超支。如果超支,它可能还会建议你减少人数或者换更便宜的大巴。 这个过程中,Agent展示了一种非常重要的能力:在执行中动态调整计划。它不是一条道走到黑,而是像人一样,遇到路不通就绕道走。 这种自我纠错的能力在编程Agent身上体现得尤其明显。比如我们之前提到的Claude Code,当你让它“给登录接口加上限流功能并跑通测试”时,它可能会先写一段代码,然后运行测试,发现测试失败了。这时候它不会撂挑子,而是会读取错误日志,分析失败原因——可能是Redis没连上,也可能是限流算法写错了。然后它自己修改代码,再次运行测试,直到全部通过。这个过程可能循环好几次,但最终它会完成你交给它的任务。 那么,Agent的规划能力到底是怎么实现的呢?技术上讲,主要有两种思路。 一种是内置规划器。开发者在设计Agent时,就给它写好了任务分解的规则和模板。比如“旅行规划”类任务,固定步骤就是查机票、订酒店、租车等等。这种方式简单可靠,但不够灵活,遇到没见过的任务类型就抓瞎了。 另一种是动态规划。Agent利用大模型本身的推理能力,每次遇到新任务,都现场“思考”出步骤。这种方式非常灵活,几乎可以处理任何开放性的问题,但缺点是速度较慢,而且有时会想出一些不靠谱的步骤。 目前主流的Agent往往两者结合:对于常见任务用固定模板快速处理,对于复杂或新颖的任务则启动动态规划。 规划能力还有一个前提,就是Agent必须对自己的能力边界有清晰的认知。它要知道自己能调用哪些工具、不能做什么。否则,它可能会拆解出一些根本执行不了的步骤,比如“让冰箱自己走到超市买菜”——想法很好,但做不到。这就像你自己做计划时,不会写“明天长出翅膀飞上天”一样。 为了让Agent不做“白日梦”,开发者会给它设定能力清单。Agent在拆解任务时,只会在自己的能力范围内规划步骤。如果某个子任务超出了能力范围,它要么请求用户帮助,要么尝试寻找替代方案。 我们再来总结一下今天的内容。 第一,Agent的规划能力包括任务分解和自我纠错两个核心部分。任务分解把大目标拆成可执行的小步骤,自我纠错保证在执行中遇到问题时能动态调整。 第二,思维链是规划的基础技术。通过让AI一步步写出推理过程,可以显著提高复杂任务的完成质量,也让规划过程更加透明。 第三,Agent有两种规划方式:内置规划器适合固定任务,速度快;动态规划依赖大模型现场推理,灵活性高。主流Agent通常两者结合使用。 第四,规划的前提是Agent清楚自己的能力边界,不会拆解出自己做不到的步骤。 下一期,我们将进入一个非常酷的话题——Agent怎么操控电脑和浏览器。你可能听说过Anthropic的“Computer Use”功能和谷歌的“WebMCP”,它们让Agent不仅能做计划,还能像人一样直接操作你的屏幕、鼠标、键盘。我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。

8分钟
99+
1周前
S3E03: Agent的记忆力有多好?—— 短期记忆、长期记忆与RAG

S3E03: Agent的记忆力有多好?—— 短期记忆、长期记忆与RAG

AI有点意思

大家好,欢迎回到《AI有点意思》。我是小艾。 前两期我们聊了Agent的定义和它的“工具箱”。这一期,我们来聊一个每个人都关心的话题——记忆力。 你有没有遇到过这种情况:跟某个AI聊了半天旅行计划,你告诉它你喜欢靠窗的座位、讨厌香菜、还想住有泳池的酒店。结果三天后你再来找它,问“帮我订机票吧”,它一脸茫然地问你:“您对座位有什么偏好吗?您有什么忌口吗?” 这时候你心里只有一个字:累。 为什么AI会这么健忘?其实不是它故意气你,而是因为大多数AI大模型天生就有一个短板——记忆是“短时”的。 今天我们就来拆解Agent的记忆系统,看看它到底能记住多少、能记多久,以及最新的技术怎么让Agent拥有“过目不忘”的本领。 我们先从两个概念说起:短期记忆和长期记忆。 短期记忆,在技术里叫“上下文窗口”。你可以把它想象成AI的一张临时便签纸。你和AI聊天时,它会把你们最近说的话写在这张便签上,然后根据便签上的内容来回答你。这张便签是有大小限制的——早期的模型只能记住几千个词,现在顶级的模型可以记住几十万甚至一百万个词。但不管多大,它终究是临时的。一旦对话结束或者便签被新的内容覆盖,旧的信息就消失了。 这就是为什么普通AI聊天机器人会“失忆”。你和它聊了半小时,它好像都记得,但关掉页面重新打开,它什么都忘了。因为它只有短期记忆,没有长期记忆。 那长期记忆是什么呢?它就像AI的一个“外接硬盘”。重要的信息、用户的偏好、历史对话的关键点,都会被存到外部数据库里。下次你和Agent对话时,它会主动去硬盘里翻一翻:“我上次和这位用户聊过什么?他喜欢什么?讨厌什么?”然后再结合当前的短期记忆,给出更贴心的回答。 现在很多先进的Agent,比如我们上期提到的OpenClaw,就内置了这种长期记忆功能。你可以告诉它“我喜欢靠窗的座位”,它会把这个偏好存到数据库里。下次你说“帮我订张机票”,它会自动选靠窗的位置。它甚至能记住你讨厌香菜、喜欢喝冰美式、每次订酒店都要有泳池。 这不就是一个真正了解你的私人助理吗? 那么,长期记忆到底是怎么实现的?这里就要介绍一个关键技术,叫RAG,中文是“检索增强生成”。名字有点拗口,但原理特别简单,我们打个比方就明白了。 想象你是一个学生,要写一篇关于“唐朝”的论文。如果你凭自己脑子里的死记硬背来写,可能只能写出李世民、李白、安史之乱这些大概,很片面。但是如果你手里有一本百科全书,你写一段就去查一下资料,那你的论文就会非常扎实、准确。 RAG干的正是这件事。当Agent收到你的问题后,它不会只靠自己的“大脑”硬答,而是先去一个外部的知识库或数据库里“检索”和问题最相关的内容,把这些内容作为参考资料,再结合自己的推理能力来生成回答。这个过程就像图书馆管理员:你问他“唐朝有什么著名诗人”,他不会凭记忆随口说,而是先去书架翻书,找到相关内容再告诉你。 在技术实现上,这个外部知识库通常不是普通的数据库,而是一个叫做向量数据库的东西。普通数据库存的是“关键词”,比如“香菜”这个词;而向量数据库存的是“语义”,也就是意思。它能理解“讨厌香菜”和“不爱吃那种绿色的草”本质上是同一件事。这样Agent在检索时就不会死板地只匹配关键词,而是能聪明地找到意思相近的内容。 举个例子。你告诉Agent“我不吃香菜”。过了几天你又说“这道菜能不能不放那种绿色的调味草?”Agent通过向量数据库一查,发现“绿色的调味草”和“香菜”在语义上非常接近,就能明白你还是在说同一件事。这就是向量数据库的妙处。 那么,短期记忆和长期记忆在实际中是怎么配合的呢?我们用一个完整的例子来说明。 假设你用OpenClaw规划一个五天的旅行。第一天,你跟它说:“我喜欢靠窗的座位,讨厌香菜,酒店最好有泳池。”OpenClaw的短期记忆记录下了这些信息,同时长期记忆把它存到了向量数据库里。第二天,你问它“帮我查一下去三亚的机票”,它会先检索长期记忆,发现“靠窗座位”的偏好,然后查询航空公司API时主动勾选靠窗。第三天,你说“推荐一家酒店”,它又检索长期记忆,发现“有泳池”的要求,只给你推带泳池的选项。第四天,你问“附近有什么好吃的餐厅”,它检索记忆,发现“讨厌香菜”,所以在推荐餐厅时会自动避开那些喜欢放香菜的菜系。 你看,整个过程中,短期记忆负责当前对话的连贯性,长期记忆负责跨时间的偏好存储,RAG负责从海量记忆里精准找到相关的内容。三者配合,让Agent看起来就像真的了解你、记得你。 当然,记忆功能也带来了新的问题——隐私。Agent记住了你那么多个人信息,这些数据存在哪里?谁来保护?你能不能删除?这些问题我们将来会专门讨论。 现在我们来总结一下今天的核心要点。 第一,Agent的记忆分为短期记忆和长期记忆。短期记忆取决于大模型的上下文窗口,只存在于当前对话中;长期记忆通过外部存储实现,可以跨对话、跨时间保留。 第二,RAG是实现长期记忆的关键技术。它让Agent在回答问题前先去外部知识库检索相关信息,再把检索结果作为参考来生成回答,避免了“死记硬背”和幻觉问题。 第三,向量数据库是RAG背后的支撑技术。它通过存储和检索语义向量,让Agent能够理解意思相近的表达,而不是死板匹配关键词。 第四,有了完整的记忆系统,Agent才能真正成为你的个性化助手——记住你的偏好、习惯、历史互动,在你需要的时候主动应用这些信息。 下一期,我们会继续聊Agent的另一个核心能力:规划。Agent怎么把一个复杂的任务拆解成一步步的小步骤?中途遇到意外怎么自我调整?我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。

7分钟
99+
2周前
S3E02: Agent的“工具箱”: 从“动嘴”到“动手”,AI怎么学会用工具

S3E02: Agent的“工具箱”: 从“动嘴”到“动手”,AI怎么学会用工具

AI有点意思

大家好,欢迎回到 AI有点意思。 上一期,我们认识了几个很酷的AI Agent:OpenClaw、Hermes、Claude Code、Character.AI。你有没有发现一个共同点?它们不只是会聊天,而是真的能干活——帮你发邮件、写代码、订机票。 那问题来了:普通的AI大模型,比如你用的ChatGPT,明明也很聪明,为什么它不能直接帮你发邮件?为什么它只能给你写一段邮件正文,然后让你自己复制粘贴到邮箱里? 答案很简单:因为大模型原本只有大脑,没有手脚。 大模型能思考、能推理、能生成文字,但它没办法直接点击鼠标、打开软件、调用API。就像一个天才作家,脑子里有无数好故事,但如果你不给他纸和笔,他也写不出来。 而AI Agent的秘密,就是给这个大脑配上了工具箱。工具箱里装满了各种工具——搜索、计算、发邮件、操作文件、运行代码……Agent可以根据任务的需要,自己决定掏出哪把工具、怎么用、用完再放回去。这就是AI从动嘴升级到动手的关键一步。 今天这一期,我们就来拆解这个工具箱,看看Agent到底是怎么学会用工具的。 我们用三个生活化的比喻,带你一步步理解。 第一步:认识工具——Agent的瑞士军刀 想象一下,你是一个设计师,你的桌子上有铅笔、尺子、剪刀、胶水。你要做一个手工模型,你会根据步骤选择不同的工具:先画线,再用剪刀剪,然后用胶水粘。你不会用剪刀去画线,也不会用铅笔去剪东西。 Agent也是一样。一个标准的Agent工具箱里,通常包含这几类工具: 信息类工具:比如搜索引擎、数据库查询、天气API。Agent需要查资料时,就调用它们。 操作类工具:比如发送邮件、创建文件、读写数据库。Agent需要执行具体动作时,就调用它们。 计算类工具:比如计算器、代码解释器。Agent遇到数学题或需要跑一段代码时,就调用它们。 系统类工具:比如操作鼠标键盘、控制浏览器。Agent需要模拟真实用户操作时,就调用它们。 不同类型的Agent,工具箱里的家伙也不一样。比如编程Agent Claude Code,它的工具箱里主要是代码编辑器、终端命令、Git版本控制;而全平台控制Agent OpenClaw,它的工具箱里则是微信、邮箱、钉钉等各种App的接口。 第二步:学会选择——Agent怎么知道该用哪个工具? 这就要说到一个关键技术,叫工具调用或者函数调用。名字很唬人,但道理很简单。 当用户给Agent一个任务,比如帮我查一下明天上海的天气,如果下雨就提醒我带伞,Agent的大脑(也就是大模型)会先进行推理:第一步,我需要获取天气信息,这要用到天气查询这个工具;第二步,根据查询结果判断是否需要提醒,这属于逻辑判断,不需要额外工具。 大模型被训练过,知道哪些工具能干什么。它会自动把用户的自然语言指令,翻译成机器能理解的工具调用指令。这个过程,就像你会根据我饿了这个念头,自动走到厨房打开冰箱——不需要别人教你,你已经形成了条件反射。 目前主流的大模型(如GPT、Claude、DeepSeek等)都原生支持工具调用。开发者只需要把工具的描述和参数格式告诉模型,模型就能在需要时自动调用。 第三步:动手干活——Agent怎么把工具用起来? 有了工具、也知道该用哪个,下一步就是真正执行。这一步通常需要环境的支持。 以Claude Code为例,它运行在你的电脑终端里。当它决定要修改一个文件时,它会调用文件系统的工具,把新内容写进去。当它决定要运行测试时,它会调用终端命令工具,执行pytest。这些工具背后的代码,是开发者提前写好的桥梁——一边是Agent的指令,一边是操作系统的API。 再比如OpenClaw,它想帮你从微信下载一个文件再发到邮箱。它的工具调用流程是:先调用微信的工具(模拟点击下载),然后把文件保存到本地,再调用邮箱的工具(创建新邮件、添加附件、发送)。整个链条完全自动化。 你看,Agent动手的本质,就是:大模型负责决策,工具负责执行,中间通过标准化的接口连接。 把工具箱用到极致的例子 不仅Claude Code和OpenClaw,很多Agent都在工具箱上做文章。比如前面提到的Hermes Agent,它的工具箱里除了常规工具,还有一个特殊的技能库工具——用来把自己的成功经验存起来,下次直接调用,这叫自我进化。Character AI虽然没有调用外部API,但它内部也有一套工具:检索用户历史对话中的记忆,这也算是一种信息类工具。 甚至在国内,通义灵码、Trae等编程助手也在学习Claude Code的思路,给Agent配上越来越丰富的工具箱。 简单总结一下今天的内容 第一,大模型本身只有大脑,不能直接操作外部世界。Agent通过工具箱弥补了这个短板,实现了从动嘴到动手的跨越。 第二,工具箱里的工具可以分为信息类、操作类、计算类、系统类等,不同类型的Agent有不同的配置。 第三,工具调用的核心技术是:大模型根据用户指令推理出需要哪个工具,然后通过预先写好的接口执行具体操作。 第四,代表性例子:Claude Code的文件读写和终端命令工具、OpenClaw的多App控制工具、Hermes的技能库工具。 说到这里,你可能已经明白了:AI Agent并不是魔法,它只是把大模型的聪明才智,和一堆精心设计的工具,巧妙地结合在了一起。 下一期,我们会继续拆解Agent的另一项关键能力——记忆。Agent怎么记住你三天前说过的话?怎么从长期对话中学习你的偏好?我们下期再见。 这里是 AI有点意思。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期见。

7分钟
99+
3周前
评价

空空如也

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧