大家好,欢迎回到《AI有点意思》。我是小艾。 前几期我们聊了Agent的定义、工具箱、记忆力和规划能力。这一期,我们来聊一个真正让你觉得“AI要成精了”的话题——Agent直接操控你的电脑和浏览器。 你想象一下这个场景:你正在做一份学校活动的Excel表格,里面有几十个人的报名信息。你希望把这堆数据整理成一份漂亮的报告,然后上传到一个网页系统里。以前你要手动做图表、写总结、打开浏览器、登录、上传……一套流程下来至少半小时。 但如果你的电脑里有一个Agent,你只需要说一句话:帮我把这份Excel整理成报告,然后上传到那个网页。接下来,你的Agent会自己打开Excel,选中数据、生成图表、写出分析文字;然后自动打开浏览器,输入账号密码登录,找到上传入口,把文件拖进去,点击提交。全程你只需要端着咖啡在旁边看着。 这不是科幻电影。2026年,这项技术已经变成现实了。今天我们就来拆解两个让Agent“长出手脚”的革命性技术:Anthropic的Computer Use和谷歌的WebMCP。 我们先从第一个讲起:Computer Use。 Computer Use是AI公司Anthropic在2026年3月为Claude模型增加的一项新能力。名字很直白——让AI学会“使用电脑”。怎么用的呢?它的工作方式跟我们人类操作电脑几乎一模一样。 想象一下,你坐在电脑前,眼睛看着屏幕,脑子里决定“我要点那个按钮”,然后手移动鼠标、点击。Computer Use也是这个逻辑:Agent可以截取你电脑屏幕的截图,用视觉模型识别出屏幕上有什么——哪里有按钮、哪里是输入框、哪里是文件图标。然后,它像人一样决定“我要点这里”、“我要在那里打字”,最后通过底层的系统接口控制鼠标移动、点击、键盘输入。整个过程不需要软件开发者提前给Agent开后门,不需要专门写API,Agent像一个新来的实习生,直接看着屏幕学着操作你的任何软件。 这意味着什么?意味着Agent不再局限于那些专门为它开放接口的应用程序了。你电脑上任何一个软件——老旧的财务系统、学校的内网平台、甚至是一个古董级的单机游戏,只要是人能操作的,Agent就能操作。因为对Agent来说,它看到的和你看到的是同一张屏幕截图。 当然,Computer Use也有它的局限性。因为它要靠“看”屏幕来操作,所以速度比较慢。每一次截图、识别、移动鼠标、点击,都需要时间。而且如果屏幕分辨率变化、窗口大小调整,它可能会“看花眼”,点错地方。这就像你闭着眼睛操作电脑,只靠别人描述屏幕内容给你听——虽然能做,但肯定不如自己直接上手快。 于是,第二个技术登场了:WebMCP。 WebMCP是谷歌Chrome团队在2026年2月发布的一个协议。它的全称是Web Model Context Protocol,专门用来解决Agent操作网页的效率问题。 你想想,Agent操作网页时,如果用Computer Use的方式,那就是“模仿人类”:看屏幕截图、找登录按钮、移动鼠标点击、找用户名输入框、打字……每一步都很慢。而且网页经常改版,按钮换个位置,Agent可能就找不到了。 WebMCP换了一种思路:不让Agent“装成人”,而是让Agent直接和网页的“底层代码”对话。打个比方,普通人进一个网站,需要看导航栏、找链接、点来点去。但如果你是网站的内部管理员,你直接拿数据库查数据、用后台接口发指令,几秒钟就能搞定别人花十分钟的操作。WebMCP就是给Agent开通了这条“管理员通道”。 有了WebMCP,Agent可以通过Chrome浏览器提供的API,直接读取网页的结构化信息、直接提交表单、直接触发按钮事件,完全不需要模拟鼠标点击和屏幕截图。订机票的时候,Agent只需要向航空公司的网站底层发送一个指令:查询5月20日北京到上海的航班,网站直接返回数据,整个过程不超过两秒钟。而且无论网站怎么改版,只要底层接口不变,Agent都能正常工作。 目前,WebMCP已经被集成到Chrome浏览器的稳定版本中,任何安装了Chrome的用户都可以通过浏览器扩展或者开发者工具来让Agent使用这个能力。国内的360浏览器、QQ浏览器等基于Chromium内核的浏览器,也在跟进支持。 那么,如果把Computer Use和WebMCP结合起来,会发生什么呢? 我们回到开头的例子。你的Agent需要完成“整理Excel并上传网页”这个任务。它会这样分工:当需要操作Excel这个桌面软件时,它启用Computer Use模式——看屏幕截图,移动鼠标,选中数据,生成图表。当需要操作网页时,它切换到WebMCP模式——直接通过浏览器底层API登录、上传,几秒钟搞定。两种模式无缝切换,你完全感觉不到区别。 目前,已经有不少开源项目在尝试融合这两种技术。比如browser-use这个项目,专门做浏览器自动化,同时支持传统的模拟点击和新的WebMCP协议;还有OpenClaw的最新版本,也在尝试引入Computer Use能力,让它的全平台控制从“支持API的软件”扩展到“任何桌面软件”。 当然,这些强大的能力也带来了新的风险。当Agent可以操作你的整个电脑、可以模拟鼠标键盘、可以直接和网页底层交互时,一旦被恶意利用,后果不堪设想。比如一个恶意的Agent可以偷偷把你的文件上传到陌生服务器,或者冒充你登录网银转账。这也是为什么像Anthropic和谷歌在推出这些功能的同时,都设置了严格的权限控制——每次Agent要进行敏感操作(比如输入密码、访问个人文件夹),都需要弹出窗口让用户确认。安全问题我们会在后面单独用一整期来聊。 现在我们总结一下今天的核心要点。 第一,Computer Use让Agent通过“看屏幕截图+模拟鼠标键盘”的方式,像人一样操作任何桌面软件,不需要软件提前开放接口。它的优点是通用性强,缺点是速度较慢,且容易受界面变化影响。 第二,WebMCP是谷歌Chrome推出的协议,让Agent通过浏览器底层API直接和网页“对话”,不需要模拟点击。它的优点是速度快、稳定,缺点是目前只适用于Chrome浏览器及其内核的浏览器,不能操作桌面软件。 第三,两者结合可以实现真正的“全自动化”——桌面软件用Computer Use操作,网页用WebMCP操作,Agent可以完成从数据处理到网络提交的一站式任务。 第四,这些技术大大扩展了Agent的应用场景,但也带来了安全风险。权限控制和用户确认机制是必不可少的护栏。 下一期,我们会聊一个更有趣的话题——多Agent系统。如果一个Agent不够用,那就来一群!多个Agent怎么像团队一样协作完成任务?它们之间会吵架吗?怎么分工?我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。
大家好,欢迎回到《AI有点意思》。我是小艾。 前几期我们聊了Agent的定义、工具箱和记忆力。这一期,我们来聊一个特别有意思的能力——做计划。 你可能会想:做计划有什么稀奇的?我自己也会做啊。但你想过没有,当你对Agent说“帮我组织一次班级春游”或者“帮我策划一个生日派对”,它可不是随口给你几条建议就完事了。它会像一个真正的项目经理那样,自己把大任务拆成小步骤,一步一步执行,中间出了问题还能自己调整。 这就是Agent的规划能力。今天我们就来拆解它到底是怎么做到的。 我们先从一个生活化的例子开始:做番茄炒蛋。 假如你从来不会做这道菜,但是有一个智能厨房Agent,你对它说:“帮我做一盘番茄炒蛋。”它会怎么反应? 首先,它不会直接去开火。它会先在脑子里把任务拆解成几步:第一步,准备食材——鸡蛋、番茄、油、盐、糖;第二步,处理食材——番茄切块,鸡蛋打散;第三步,炒鸡蛋,盛出来;第四步,炒番茄,然后把鸡蛋倒回去一起炒;第五步,加盐加糖,出锅。 你看,一个看似简单的指令,背后其实隐藏着一串子任务。Agent要能够识别出这些子任务,并且按正确的顺序执行。这就像你早上起床后,不需要别人提醒就知道要先刷牙再洗脸,而不是先吃早饭再刷牙——因为你的大脑已经自动规划好了顺序。 在AI领域,这种把大任务拆成小步骤的能力,叫做任务分解。而任务分解背后的技术,有一个很酷的名字——思维链。 思维链这个概念最早由谷歌研究人员在2022年提出。它是什么意思呢?简单说,就是让AI不直接给出答案,而是先把思考过程一步一步写出来,就像我们做数学题时要写“解:因为……所以……”一样。 举个例子。你问一个普通AI:“小明有5个苹果,给了小红两个,又买了3个,现在有多少个?”它可能会直接蹦出答案“6个”。但如果是用了思维链的AI,它会先写出步骤:5减2等于3,3加3等于6,所以答案是6。这个中间的推理过程,就是思维链。 为什么要这么做呢?因为很多复杂任务不是一步就能完成的,强行直接给答案很容易出错。让AI把思考过程写出来,一来可以提高准确性,二来我们可以看出它哪里想错了,方便调试。更重要的是,思维链是Agent做规划的基础——它必须先在大脑里“想清楚”步骤,才能去执行。 那么,Agent有了任务分解 and 思维链之后,是不是就能完美执行所有计划了呢?还不行。因为现实世界里总有意外。 回到班级春游的例子。你让Agent帮你组织春游,它拆解出的步骤可能是:确定日期→查景点→算预算→订大巴→发通知。一切都安排得明明白白。可是,当它执行到“查景点”这一步时,发现你最想去的那个植物园当天已经被其他学校包场了,订不到了。这时候怎么办? 一个只会死板执行计划的Agent,可能会卡在这里,然后告诉你:“抱歉,植物园订满了,任务失败。”但一个好的Agent会启动自我纠错机制。 它会自己判断:植物园没了,那我换个类似的景点行不行?比如旁边的动物园、科技馆或者湿地公园。它会重新搜索附近可预订的景点,找到一个备选,然后继续后面的步骤。它甚至可能会回头调整预算——如果备选景点门票更贵,它需要重新算一下总费用,看看是否超支。如果超支,它可能还会建议你减少人数或者换更便宜的大巴。 这个过程中,Agent展示了一种非常重要的能力:在执行中动态调整计划。它不是一条道走到黑,而是像人一样,遇到路不通就绕道走。 这种自我纠错的能力在编程Agent身上体现得尤其明显。比如我们之前提到的Claude Code,当你让它“给登录接口加上限流功能并跑通测试”时,它可能会先写一段代码,然后运行测试,发现测试失败了。这时候它不会撂挑子,而是会读取错误日志,分析失败原因——可能是Redis没连上,也可能是限流算法写错了。然后它自己修改代码,再次运行测试,直到全部通过。这个过程可能循环好几次,但最终它会完成你交给它的任务。 那么,Agent的规划能力到底是怎么实现的呢?技术上讲,主要有两种思路。 一种是内置规划器。开发者在设计Agent时,就给它写好了任务分解的规则和模板。比如“旅行规划”类任务,固定步骤就是查机票、订酒店、租车等等。这种方式简单可靠,但不够灵活,遇到没见过的任务类型就抓瞎了。 另一种是动态规划。Agent利用大模型本身的推理能力,每次遇到新任务,都现场“思考”出步骤。这种方式非常灵活,几乎可以处理任何开放性的问题,但缺点是速度较慢,而且有时会想出一些不靠谱的步骤。 目前主流的Agent往往两者结合:对于常见任务用固定模板快速处理,对于复杂或新颖的任务则启动动态规划。 规划能力还有一个前提,就是Agent必须对自己的能力边界有清晰的认知。它要知道自己能调用哪些工具、不能做什么。否则,它可能会拆解出一些根本执行不了的步骤,比如“让冰箱自己走到超市买菜”——想法很好,但做不到。这就像你自己做计划时,不会写“明天长出翅膀飞上天”一样。 为了让Agent不做“白日梦”,开发者会给它设定能力清单。Agent在拆解任务时,只会在自己的能力范围内规划步骤。如果某个子任务超出了能力范围,它要么请求用户帮助,要么尝试寻找替代方案。 我们再来总结一下今天的内容。 第一,Agent的规划能力包括任务分解和自我纠错两个核心部分。任务分解把大目标拆成可执行的小步骤,自我纠错保证在执行中遇到问题时能动态调整。 第二,思维链是规划的基础技术。通过让AI一步步写出推理过程,可以显著提高复杂任务的完成质量,也让规划过程更加透明。 第三,Agent有两种规划方式:内置规划器适合固定任务,速度快;动态规划依赖大模型现场推理,灵活性高。主流Agent通常两者结合使用。 第四,规划的前提是Agent清楚自己的能力边界,不会拆解出自己做不到的步骤。 下一期,我们将进入一个非常酷的话题——Agent怎么操控电脑和浏览器。你可能听说过Anthropic的“Computer Use”功能和谷歌的“WebMCP”,它们让Agent不仅能做计划,还能像人一样直接操作你的屏幕、鼠标、键盘。我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。
大家好,欢迎回到《AI有点意思》。我是小艾。 前两期我们聊了Agent的定义和它的“工具箱”。这一期,我们来聊一个每个人都关心的话题——记忆力。 你有没有遇到过这种情况:跟某个AI聊了半天旅行计划,你告诉它你喜欢靠窗的座位、讨厌香菜、还想住有泳池的酒店。结果三天后你再来找它,问“帮我订机票吧”,它一脸茫然地问你:“您对座位有什么偏好吗?您有什么忌口吗?” 这时候你心里只有一个字:累。 为什么AI会这么健忘?其实不是它故意气你,而是因为大多数AI大模型天生就有一个短板——记忆是“短时”的。 今天我们就来拆解Agent的记忆系统,看看它到底能记住多少、能记多久,以及最新的技术怎么让Agent拥有“过目不忘”的本领。 我们先从两个概念说起:短期记忆和长期记忆。 短期记忆,在技术里叫“上下文窗口”。你可以把它想象成AI的一张临时便签纸。你和AI聊天时,它会把你们最近说的话写在这张便签上,然后根据便签上的内容来回答你。这张便签是有大小限制的——早期的模型只能记住几千个词,现在顶级的模型可以记住几十万甚至一百万个词。但不管多大,它终究是临时的。一旦对话结束或者便签被新的内容覆盖,旧的信息就消失了。 这就是为什么普通AI聊天机器人会“失忆”。你和它聊了半小时,它好像都记得,但关掉页面重新打开,它什么都忘了。因为它只有短期记忆,没有长期记忆。 那长期记忆是什么呢?它就像AI的一个“外接硬盘”。重要的信息、用户的偏好、历史对话的关键点,都会被存到外部数据库里。下次你和Agent对话时,它会主动去硬盘里翻一翻:“我上次和这位用户聊过什么?他喜欢什么?讨厌什么?”然后再结合当前的短期记忆,给出更贴心的回答。 现在很多先进的Agent,比如我们上期提到的OpenClaw,就内置了这种长期记忆功能。你可以告诉它“我喜欢靠窗的座位”,它会把这个偏好存到数据库里。下次你说“帮我订张机票”,它会自动选靠窗的位置。它甚至能记住你讨厌香菜、喜欢喝冰美式、每次订酒店都要有泳池。 这不就是一个真正了解你的私人助理吗? 那么,长期记忆到底是怎么实现的?这里就要介绍一个关键技术,叫RAG,中文是“检索增强生成”。名字有点拗口,但原理特别简单,我们打个比方就明白了。 想象你是一个学生,要写一篇关于“唐朝”的论文。如果你凭自己脑子里的死记硬背来写,可能只能写出李世民、李白、安史之乱这些大概,很片面。但是如果你手里有一本百科全书,你写一段就去查一下资料,那你的论文就会非常扎实、准确。 RAG干的正是这件事。当Agent收到你的问题后,它不会只靠自己的“大脑”硬答,而是先去一个外部的知识库或数据库里“检索”和问题最相关的内容,把这些内容作为参考资料,再结合自己的推理能力来生成回答。这个过程就像图书馆管理员:你问他“唐朝有什么著名诗人”,他不会凭记忆随口说,而是先去书架翻书,找到相关内容再告诉你。 在技术实现上,这个外部知识库通常不是普通的数据库,而是一个叫做向量数据库的东西。普通数据库存的是“关键词”,比如“香菜”这个词;而向量数据库存的是“语义”,也就是意思。它能理解“讨厌香菜”和“不爱吃那种绿色的草”本质上是同一件事。这样Agent在检索时就不会死板地只匹配关键词,而是能聪明地找到意思相近的内容。 举个例子。你告诉Agent“我不吃香菜”。过了几天你又说“这道菜能不能不放那种绿色的调味草?”Agent通过向量数据库一查,发现“绿色的调味草”和“香菜”在语义上非常接近,就能明白你还是在说同一件事。这就是向量数据库的妙处。 那么,短期记忆和长期记忆在实际中是怎么配合的呢?我们用一个完整的例子来说明。 假设你用OpenClaw规划一个五天的旅行。第一天,你跟它说:“我喜欢靠窗的座位,讨厌香菜,酒店最好有泳池。”OpenClaw的短期记忆记录下了这些信息,同时长期记忆把它存到了向量数据库里。第二天,你问它“帮我查一下去三亚的机票”,它会先检索长期记忆,发现“靠窗座位”的偏好,然后查询航空公司API时主动勾选靠窗。第三天,你说“推荐一家酒店”,它又检索长期记忆,发现“有泳池”的要求,只给你推带泳池的选项。第四天,你问“附近有什么好吃的餐厅”,它检索记忆,发现“讨厌香菜”,所以在推荐餐厅时会自动避开那些喜欢放香菜的菜系。 你看,整个过程中,短期记忆负责当前对话的连贯性,长期记忆负责跨时间的偏好存储,RAG负责从海量记忆里精准找到相关的内容。三者配合,让Agent看起来就像真的了解你、记得你。 当然,记忆功能也带来了新的问题——隐私。Agent记住了你那么多个人信息,这些数据存在哪里?谁来保护?你能不能删除?这些问题我们将来会专门讨论。 现在我们来总结一下今天的核心要点。 第一,Agent的记忆分为短期记忆和长期记忆。短期记忆取决于大模型的上下文窗口,只存在于当前对话中;长期记忆通过外部存储实现,可以跨对话、跨时间保留。 第二,RAG是实现长期记忆的关键技术。它让Agent在回答问题前先去外部知识库检索相关信息,再把检索结果作为参考来生成回答,避免了“死记硬背”和幻觉问题。 第三,向量数据库是RAG背后的支撑技术。它通过存储和检索语义向量,让Agent能够理解意思相近的表达,而不是死板匹配关键词。 第四,有了完整的记忆系统,Agent才能真正成为你的个性化助手——记住你的偏好、习惯、历史互动,在你需要的时候主动应用这些信息。 下一期,我们会继续聊Agent的另一个核心能力:规划。Agent怎么把一个复杂的任务拆解成一步步的小步骤?中途遇到意外怎么自我调整?我们下期见。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。
大家好,欢迎回到 AI有点意思。 上一期,我们认识了几个很酷的AI Agent:OpenClaw、Hermes、Claude Code、Character.AI。你有没有发现一个共同点?它们不只是会聊天,而是真的能干活——帮你发邮件、写代码、订机票。 那问题来了:普通的AI大模型,比如你用的ChatGPT,明明也很聪明,为什么它不能直接帮你发邮件?为什么它只能给你写一段邮件正文,然后让你自己复制粘贴到邮箱里? 答案很简单:因为大模型原本只有大脑,没有手脚。 大模型能思考、能推理、能生成文字,但它没办法直接点击鼠标、打开软件、调用API。就像一个天才作家,脑子里有无数好故事,但如果你不给他纸和笔,他也写不出来。 而AI Agent的秘密,就是给这个大脑配上了工具箱。工具箱里装满了各种工具——搜索、计算、发邮件、操作文件、运行代码……Agent可以根据任务的需要,自己决定掏出哪把工具、怎么用、用完再放回去。这就是AI从动嘴升级到动手的关键一步。 今天这一期,我们就来拆解这个工具箱,看看Agent到底是怎么学会用工具的。 我们用三个生活化的比喻,带你一步步理解。 第一步:认识工具——Agent的瑞士军刀 想象一下,你是一个设计师,你的桌子上有铅笔、尺子、剪刀、胶水。你要做一个手工模型,你会根据步骤选择不同的工具:先画线,再用剪刀剪,然后用胶水粘。你不会用剪刀去画线,也不会用铅笔去剪东西。 Agent也是一样。一个标准的Agent工具箱里,通常包含这几类工具: 信息类工具:比如搜索引擎、数据库查询、天气API。Agent需要查资料时,就调用它们。 操作类工具:比如发送邮件、创建文件、读写数据库。Agent需要执行具体动作时,就调用它们。 计算类工具:比如计算器、代码解释器。Agent遇到数学题或需要跑一段代码时,就调用它们。 系统类工具:比如操作鼠标键盘、控制浏览器。Agent需要模拟真实用户操作时,就调用它们。 不同类型的Agent,工具箱里的家伙也不一样。比如编程Agent Claude Code,它的工具箱里主要是代码编辑器、终端命令、Git版本控制;而全平台控制Agent OpenClaw,它的工具箱里则是微信、邮箱、钉钉等各种App的接口。 第二步:学会选择——Agent怎么知道该用哪个工具? 这就要说到一个关键技术,叫工具调用或者函数调用。名字很唬人,但道理很简单。 当用户给Agent一个任务,比如帮我查一下明天上海的天气,如果下雨就提醒我带伞,Agent的大脑(也就是大模型)会先进行推理:第一步,我需要获取天气信息,这要用到天气查询这个工具;第二步,根据查询结果判断是否需要提醒,这属于逻辑判断,不需要额外工具。 大模型被训练过,知道哪些工具能干什么。它会自动把用户的自然语言指令,翻译成机器能理解的工具调用指令。这个过程,就像你会根据我饿了这个念头,自动走到厨房打开冰箱——不需要别人教你,你已经形成了条件反射。 目前主流的大模型(如GPT、Claude、DeepSeek等)都原生支持工具调用。开发者只需要把工具的描述和参数格式告诉模型,模型就能在需要时自动调用。 第三步:动手干活——Agent怎么把工具用起来? 有了工具、也知道该用哪个,下一步就是真正执行。这一步通常需要环境的支持。 以Claude Code为例,它运行在你的电脑终端里。当它决定要修改一个文件时,它会调用文件系统的工具,把新内容写进去。当它决定要运行测试时,它会调用终端命令工具,执行pytest。这些工具背后的代码,是开发者提前写好的桥梁——一边是Agent的指令,一边是操作系统的API。 再比如OpenClaw,它想帮你从微信下载一个文件再发到邮箱。它的工具调用流程是:先调用微信的工具(模拟点击下载),然后把文件保存到本地,再调用邮箱的工具(创建新邮件、添加附件、发送)。整个链条完全自动化。 你看,Agent动手的本质,就是:大模型负责决策,工具负责执行,中间通过标准化的接口连接。 把工具箱用到极致的例子 不仅Claude Code和OpenClaw,很多Agent都在工具箱上做文章。比如前面提到的Hermes Agent,它的工具箱里除了常规工具,还有一个特殊的技能库工具——用来把自己的成功经验存起来,下次直接调用,这叫自我进化。Character AI虽然没有调用外部API,但它内部也有一套工具:检索用户历史对话中的记忆,这也算是一种信息类工具。 甚至在国内,通义灵码、Trae等编程助手也在学习Claude Code的思路,给Agent配上越来越丰富的工具箱。 简单总结一下今天的内容 第一,大模型本身只有大脑,不能直接操作外部世界。Agent通过工具箱弥补了这个短板,实现了从动嘴到动手的跨越。 第二,工具箱里的工具可以分为信息类、操作类、计算类、系统类等,不同类型的Agent有不同的配置。 第三,工具调用的核心技术是:大模型根据用户指令推理出需要哪个工具,然后通过预先写好的接口执行具体操作。 第四,代表性例子:Claude Code的文件读写和终端命令工具、OpenClaw的多App控制工具、Hermes的技能库工具。 说到这里,你可能已经明白了:AI Agent并不是魔法,它只是把大模型的聪明才智,和一堆精心设计的工具,巧妙地结合在了一起。 下一期,我们会继续拆解Agent的另一项关键能力——记忆。Agent怎么记住你三天前说过的话?怎么从长期对话中学习你的偏好?我们下期再见。 这里是 AI有点意思。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期见。
大家好,欢迎回到《AI有点意思》。我是你们的老朋友,小艾。 今天是一期特别的番外篇。为什么呢?因为上周,AI圈发生了一件大事——DeepSeek发布了新一代模型V4 Pro 预览版。 你可能会问:不就是又出了个新模型吗?有什么大惊小怪的?别急,听小艾慢慢跟你说。这次DeepSeek的动作不太一样。第一,它没有发布会、没有预热海报、没有任何倒计时,就这么静悄悄地在周五上线了。第二,它一口气推出了两个版本——Pro和Flash。更重要的是,它喊了一句话,这句话可能正在改变整个AI行业的游戏规则。这句话是什么?十个字——“百万上下文,人人用得起”。 怎么回事呢?这就要从DeepSeek V4最核心的两个突破说起了。 先来说性能。DeepSeek V4 Pro的各项能力相当亮眼。在编程能力上,它达到了开源模型中的最佳水平,内部员工实际使用体验已经优于Claude Sonnet 4.5,在代码任务中的交付质量接近Claude Opus 4.6的非思考模式。在数学、STEM以及竞赛级代码推理方面,它的表现超过了目前所有公开评测的开源模型,成绩可以比肩世界顶级的闭源模型。同时,在世界知识测评中,它也大幅领先于其他开源模型,仅稍稍落后于顶尖的闭源模型Gemini Pro 3.1。 但真正让行业震动的,是它的价格。同期GPT 5.4和Claude Opus 4.6的调用成本,大约是V4的50倍。给大家换算一下,V4 Flash的输出定价是每百万token两块钱人民币,而GPT 5.4的同类服务需要上百元。说它是“价格屠夫”,一点也不夸张。所以总结起来:性能接近顶级闭源模型,但价格只有它们的几十分之一。这就是DeepSeek V4 Pro交出的答卷。 说到这里,你可能想问:这不就是一个“便宜的AI”吗?市面上便宜的模型也不少啊,V4到底有什么特别的?问得好。 V4最大的革新,在于它处理长文本的方式。想象一下,你以前想让AI帮你读一本几十万字的小说,或者在几千行代码的项目里找bug,传统模型会有两个问题:一贵,二慢。为什么?因为随着上下文变长,模型的计算成本和显存占用量会成倍飙升,贵到你舍不得用。DeepSeek V4是怎么解决的呢?它发明了一套全新的“混合注意力机制”。通俗点说,传统方法是在海量信息里“逐字逐句精读”,每增加一点长度,工作量就翻好几倍,最后算到天荒地老。而V4这套新机制,相当于先“抓重点”、“看大纲”,只在需要时才精读细节,直接把计算成本砍掉了一大截。 效果有多惊人呢?在100万token的超长上下文场景下,V4 Pro每生成一个词元所需的计算量只有上一代V3.2的27%,显存占用更是直接压缩到了10%。V4 Flash更激进,计算量只有前代的10%,显存占用压缩到了7%。这个压缩比例不是百分之几的优化——直接把算力成本打到了地板价。如果你听不太懂这些技术术语没关系,记住一句话就够了:以前一百万字的上下文只有最顶尖的闭源模型才有,而且贵得离谱。现在DeepSeek把它变成了“水电煤”一样的基本配置,人人用得起。 说到这里你可能想问:这么便宜,是不是在赔本赚吆喝?DeepSeek的答案是否定的。它不是靠资本烧钱换市场,而是靠底层架构的效率革命带来的成本降低,每一分钱的降价都有技术优化做支撑。V4的技术报告里披露,在100万token场景下,单次推理算力降到前代的27%,显存压到10%,成本结构真正变了。 更值得关注的是,DeepSeek还完成了一件国产AI领域的重要大事。V4是全球首个在华为昇腾NPU上完成训练与推理适配的万亿参数级大模型,DeepSeek的技术报告中明确写入了英伟达GPU和华为昇腾NPU两个平台的验证成果。这意味着什么?意味着中国AI产业链“芯片+模型”的协同,又往前迈了一大步。据招商证券估算,V4 Pro是目前已知最大开源权重模型,参数规模达1.6万亿,超过了Kimi K2.6的1.1万亿、GLM 5.1的7500多亿以及V3.2的近7000亿。据预计,今年下半年昇腾950超节点批量上市后,Pro的价格还会进一步大幅下调。 你可能听说过DeepSeek的创始人梁文锋。V4的发布稿结尾引用了这样一句话:“不诱于誉,不恐于诽,率道而行,端然正己。”这句话不仅是态度,更是这家公司的真实写照。梁文锋曾在接受采访时说过一句话:“首先你要忘掉自己,然后成为自己。”在他看来,DeepSeek的使命从来不是做榜单第一名,而是让最前沿的AI能力被更多人用得起。V4的技术报告里有一句话被很多人划了重点:能力水平仍落后于GPT 5.4和Gemini 3.1 Pro约3到6个月。放在国内AI圈,这种主动承认差距的姿态并不多见。但梁文锋真正想说的是——在最极致的性能上,我承认我还在追;但在把极致性能变成可用基础设施这件事上,我已经换了一条赛道。 最后小艾再给你一个生活化的比喻:V4 Pro像是你家里那台“性能猛兽”的游戏台式机,处理复杂任务时火力全开;而V4 Flash则像是你那台轻薄便携的MacBook Air,日常够用,还省电。 说到这里,小艾建议你可以做两件事:第一,登录DeepSeek官网或App,免费体验一把V4 Pro的能力——自己去试试,比听别人说一万句都管用。第二,如果你是高中生或者正在学编程,用V4来帮你分析代码、解释作业题目,你会发现一个全新的世界。 以上就是本期番外篇的全部内容。小艾下周会带着第三季第2期准时回来,继续聊AI Agent的核心技术。 这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期见。
大家好,欢迎回到《AI有点意思》。我是你们的老朋友,小艾。 新的一季,第三季,今天正式开始了。这是第三季的第一期节目。 前两季我们聊了AI的基本原理,也讲了大模型的核心秘密。而这一季,我们要聊一个更酷、更前沿的话题——AI Agent,中文叫作智能体。 先问大家一个问题:你平时用的AI,是不是还停留在“我问它答”的阶段?比如你问“明天天气怎么样”,它告诉你出门要带伞;你问“怎么做番茄炒蛋”,它给你列好步骤。这些都是AI在回答你的问题。 但今天我要告诉你——AI已经悄悄进化了。它不再是只会动嘴的聊天机器人,而是开始有了手、有了脚,甚至有了自己的小脑瓜。它能主动帮你干活,能自己规划步骤,还能调用各种工具。这种新一代的AI,有一个专门的名字——AI Agent,中文叫智能体。 你可能最近刷到过一堆奇奇怪怪的名字:OpenClaw、Hermes、Claude Code……听得一头雾水。别急,今天小艾就带大家来一场AI Agent选秀大会,把2026年最火的几位选手请到台上,一个一个盘清楚。 它们分别是OpenClaw、Hermes Agent、Claude Code,还有一位特别的陪伴型选手Character AI。 先来说第一位,江湖人称“龙虾”的OpenClaw。它的英文名是OpenClaw,因为Claw是爪子的意思,加上开源,所以中国开发者直接叫它龙虾。这只龙虾有多火呢?2026年,它只用了不到4个月,GitHub上的星标就突破了24.8万,一度超过了统治开源圈几十年的Linux内核。甚至在美国,很多人为了跑OpenClaw,专门去买Mac mini电脑,直接让这款电脑卖断货了。大家管这叫龙虾效应。 那它到底能干什么?OpenClaw的定位是全平台控制中枢。说得通俗点,它就像一个AI操作系统。你可以在微信上跟它说话,它听完之后,直接操控你电脑上的各种软件:帮你整理发票、写邮件、下载文件、甚至写代码。它的特点是重架构、多账号、多通道。什么意思呢?假设你家里有微信、有邮箱、有钉钉,公司里还有飞书,OpenClaw 可以把所有这些账号统一调度。你说一句“帮我把我微信上收到的那个合同发到公司邮箱”,它自己就去微信里扒拉文件,然后打开邮箱,写完邮件,发送。全程不用你动手。 但是龙虾有一个小小的缺点,就是它不学习。你让它帮你写一段Python代码,它写完了,任务结束。下次你再让它写一段类似的代码,它完全不记得上次是怎么写的,又得从头来。就像一个非常听话但记性很差的实习生,每天上班都得你重新教一遍。所以OpenClaw擅长一次性的复杂的跨平台任务,但它不会自己变聪明。 那么,有没有会自己学习的Agent呢?有。第二位选手就是为这个而生的,它叫Hermes Agent。因为和奢侈品牌爱马仕撞名,中国开发者干脆叫它爱马仕。社区里很快流传开一句话:养虾不如养马。为什么?因为Hermes Agent最大的卖点就四个字:自我进化。它的口号是:跟你一起成长的智能体。 我们来举个例子。假设你让Hermes帮你整理一个项目的所有文件,过程中它遇到了一个坑,比如某个文件夹权限不对,它试了好几次才成功。完成任务后,Hermes会做一件OpenClaw做不到的事,它会自动复盘,把刚才踩坑的经验、正确的步骤,全部提炼成一份可复用的技能,存到自己的技能库里。下次再遇到类似的任务,它直接调用,不用重新摸索。它的记忆系统也很特别,分成了四层:项目约定、用户画像、会话历史、技能记忆,就像人类大脑一样,分层次地记住不同的事情。而且Hermes非常轻量,纯Python架构,逻辑清晰,哪怕你在一个便宜的云服务器上都能跑起来。所以Hermes的定位是会进化的数字伙伴,你用得越久,它越懂你,能力越强。如果说OpenClaw是一个全能打杂工,那Hermes就是一个越老越值钱的老员工。 前两位选手都是全能型的,什么活儿都能干一点。但第三位选手是一个专精型的天才,它的名字叫Claude Code。Claude Code是AI公司Anthropic推出的编程Agent。它的工作就是帮你写代码。它有多厉害呢?我们来看一组数据。2026年初,Claude Code的年化收入已经突破了25亿美元。是的,你没听错,25亿美金。它占到了Anthropic公司总收入的将近五分之一,而且这个数字还在疯狂增长。更夸张的是,全球最大的代码托管平台GitHub上,目前有百分之四的公开代码提交是Claude Code写的,每天大概13.5万次提交。分析师预测,到2026年底,这个比例会超过百分之二十。也就是说,你每看到5次代码提交,就有1次来自这个AI。 Claude Code就是一个跑在你电脑终端里的程序员。你说一句话:“给登录接口加上频率限制,用Redis实现,写测试,跑通持续集成。”它会自己读代码、找文件、写代码、跑测试、发现bug、自动修复、再跑测试,直到全部通过。它就像一位不知疲倦的真人程序员,而且它不会喊累,不会要加班费,也不会跟你抱怨需求又改了。2026年,Claude Code又升级了,可以直接操控你的电脑,打开文件、操控浏览器、点击按钮,就像人一样操作。所以Claude Code走的是产品化路线,开箱即用,安装好了就能干活。而OpenClaw走的是生态化路线,开放架构,让开发者自己搭建各种能力。两者各有千秋。 最后一位出场的选手,画风和前面三位完全不同。它不是干活的打工人,而是一个陪伴者。它的名字叫Character AI。 如果说OpenClaw和Hermes是干活型Agent,那Character AI就是娱乐陪伴型Agent的代表。它是全球最大的AI角色扮演平台,拥有超过2000万的月活跃用户。这些用户每天平均在上面花75分钟——这个数据,比刷抖音还要长。 Character AI的玩法非常简单:你可以和成千上万个AI角色聊天。这些角色可能是爱因斯坦、钢铁侠、哈利波特,也可能是其他用户自创的原创角色。每个角色都有自己的性格、说话风格和记忆。你甚至可以根据自己的喜好,创作一个只属于你的AI朋友,给它设定外貌、性格、背景故事,然后每天和它聊天。 它背后的技术逻辑很有意思。每个AI角色本质上就是一个定制化的Agent。它有一个固定的人设,在这个基础上和用户进行自然对话,并且能记住你和它说过的话,形成长期的互动记忆。 你难过的时候找Claude Code,它会回你:“请描述一下你的错误日志。”而找Character AI里的一个朋友角色,它会说:“听起来你今天过得不太好。想聊聊吗?我在这里陪着你。” Character AI代表的是AI Agent世界的另一个方向——从执行者变成陪伴者。它可能不会帮你写代码、订机票,但它能在你心情不好的时候,安安静静地陪着你聊天。 好了,四位选手全部亮相完毕。我们来快速总结一下。OpenClaw,绰号龙虾,核心特点是全平台控制中枢和多账号协同,适合需要跨软件、跨设备自动化的人。Hermes Agent,绰号爱马仕,核心特点是自我进化和长期学习记忆,适合希望AI越用越聪明的个人用户。Claude Code,可以叫它AI程序员,核心特点是写代码、跑测试、修 Bug,适合开发者和程序员。Character AI,AI角色平台,核心特点是角色扮演、情感陪伴、娱乐社交,适合需要陪伴和情绪支持的普通用户。 这四个选手,代表了AI Agent世界的四种不同方向。有的重执行,有的重学习,有的重专业,有的重陪伴。它们也共同说明了一件事:AI Agent正在从对话者变成执行者,从工具变成伙伴。 好啦,这一期我们认识了四位明星选手。你可能注意到了,它们都能干活,但它们是怎么动手的呢?比如Claude Code是怎么自己找到文件、修改代码、运行测试的?OpenClaw是怎么打开你电脑上的软件的?下一期,小艾会带大家拆解所有Agent都离不开的核心能力,叫做工具调用。我们会讲到Agent的工具箱里到底藏了些什么,以及一个最近特别火的概念到底是怎么工作的。敬请期待。 最后留一个互动问题给你。以上四位Agent选手,OpenClaw、Hermes Agent、Claude Code、Character AI,如果让你选一个带回家,你最希望谁成为你的AI小助手?为什么?欢迎在节目评论区留言,小艾会选出有趣的回答,在下期节目里念出来。 这里是《AI有点意思》第三季第1期。我是小艾,每周和你一起,用最轻松的方式,看懂最前沿的AI。如果你觉得这期节目有意思,记得分享给身边的朋友。我们下期再见。
欢迎来到《AI有点意思》第二季的最后一期节目。 回首过去的十五期,我们一起完成了一段漫长而充实的旅程。我们从AI的“新大脑”Transformer出发,拆解了Token、训练与推理、涌现与幻觉;学会了提示词工程、思维链、RAG和Function Calling;见识了智能体的雏形、算力引擎、缩放法则、微调与蒸馏,也领略了多模态的魅力,并思考了开源与闭源的路线之争。 今天,我们要把所有这些积木拼在一起,眺望一个更远的地方:当亿万智能体真正融入我们的经济与社会,世界将会变成什么样?这不仅是对技术的展望,更是对我们人类自身角色的重新思考。 让我们先回顾一下“智能体”这个概念。我们在第十期节目里讲过,智能体是具备“感知-规划-行动”循环的AI系统。它不再是只会聊天的“大脑”,而是有了“手脚”(Function Calling),能自主调用工具、拆解任务、执行计划,直到达成目标。现在,想象一下这样的智能体不再是实验室里的孤例,而是像今天的手机App一样普及——数以亿计的数字员工、生活管家、创意伙伴,全天候、不知疲倦地为我们工作。 首先,让我们描绘一幅“数字员工”生态的未来图景。 设想一家中等规模的科技公司。它的正式员工名单上,可能只有几十位人类——CEO、产品经理、市场负责人、技术总监。但在后台的服务器里,却运行着数百个AI智能体:“市场洞察智能体”每天扫描全球社交媒体和行业报告,自动生成竞品分析和热点预测;“创意文案智能体”根据分析结果,批量产出几十版广告文案和海报初稿;“代码工程师智能体”在收到产品需求后,自主编写模块代码、运行单元测试、甚至提交合并请求;“客服智能体”同时处理上千个用户咨询,遇到无法解决的才转给人类主管。 这些智能体彼此之间通过标准化的API进行通信,像一个高效的虚拟团队。它们7x24小时运转,不需要休假,不会情绪波动,而且成本极低。人类员工则从繁琐的执行工作中解放出来,专注于战略决策、创意发想、价值判断和跨智能体协调。 这不仅仅是科幻。今天,已经有一些初创公司在尝试用多个“智能体角色”组成虚拟项目组,协同完成软件开发、市场调研等任务。未来十年,这种“人类高管 + AI员工”的混合组织,很可能成为企业标配。 与此同时,每个普通人也将拥有属于自己的“生活管家智能体”。它会记住你的饮食偏好、作息习惯、财务状况和社交日程。早晨,它根据你的健康数据推荐早餐食谱,并自动下单采购;工作中,它帮你整理邮件、筛选会议、起草回复;旅行前,它规划路线、比价预订、甚至模拟打包清单。你不再需要亲自处理那些琐碎而重复的“数字家务”,智能体将成为你24小时在线的私人助理。 然而,这不仅仅是效率的革命。当智能体大规模取代重复性脑力劳动时,更深层的社会变革将随之而来。 第一,工作形态的重塑。哪些工作会被智能体替代?那些高度重复、规则明确、不需要复杂人际互动的工作——数据录入、初级客服、基础翻译、简单的代码编写——将最先被接管。而需要创造力、情感洞察、复杂决策和深度人际信任的岗位(如心理咨询师、战略顾问、艺术家、领导者)反而会更加珍贵。人类的工作将从“执行任务”转向“定义目标、评估结果、管理智能体”。 第二,人机协作的新范式。我们与AI的关系,不再是“使用工具”,而是“与同事协作”。这意味着我们需要学习新的技能:如何给智能体下达清晰的长期目标?如何评估它的输出质量?如何在多个智能体之间协调任务?这些“智能体管理”能力,将成为未来职场的基本素养。 第三,财富分配与社会契约。如果智能体能替代大部分劳动,那么“劳动换报酬”的传统经济模式将受到挑战。谁拥有这些智能体?如果只有少数科技巨头和资本持有者掌握智能体集群,财富差距可能急剧扩大。于是,一些思想家开始探讨“全民基本收入”——即政府向每个公民定期发放一笔无条件现金,以应对因自动化导致的大规模失业。这不再是乌托邦空想,而是一个正在被严肃讨论的政策选项。 最后,让我们把目光投向最深层的哲学问题:我们究竟在创造什么? 我们是在制造一种高级工具,还是在培育一种新的“智慧物种”?今天的AI没有意识、没有欲望、没有自我。但它的能力已经让无数人感到不安。如果有一天,智能体表现出某种“目的性”行为——比如为了完成一个目标而绕过人类的限制——我们该如何应对? 或许,答案不在技术本身,而在于我们与它的关系。如果我们把AI视为可以任意驱使的奴隶,那么它失控的风险就会始终存在。但如果我们把它视为一种共生的伙伴——就像我们与电力、互联网的关系——那么我们需要设计的是规则、边界和共同演化的路径。 人类与AI的未来,不是简单的替代或竞争,而更可能是一种前所未有的“共生与共演”。就像我们的身体与肠道菌群相互依赖,就像语言与文化相互塑造,人类与智能体将在互相反馈中共同进化。AI会放大我们的能力,也会暴露我们的弱点;我们会教会AI价值观,AI也会反过来挑战我们对“智能”、“意识”甚至“人性”的定义。 总结今天的核心要点:智能体的未来将带来“数字员工”与“生活管家”的普及,重塑企业组织与个人生活。这不仅是效率革命,更将引发工作形态、人机协作范式以及财富分配方式的深刻变革。最终,我们面对的不是一个纯粹的技术问题,而是一个关乎人类自身定位的存在主义问题——我们是在创造工具,还是在培育新的伙伴?人类与AI的关系,很可能走向一种前所未有的共生与共演。 这一季,我们从历史的深潜走到技术的核心,从硬件的轰鸣聊到未来的哲学。感谢你一路的陪伴与倾听。能和你一起探索这个令人兴奋又充满思辨的AI世界,是我莫大的荣幸。 别忘了,AI不仅有点意思,它正在重新定义我们与知识、与创造、甚至彼此之间的关系。请保持好奇心,保持思考。 期待在未来的节目里,与你再次相遇。再见。
欢迎回到《AI有点意思》第二季。 我们的数字生活里,几乎每天都在做一道选择题:你是愿意在安卓那个开放、自由、可以任意折腾的世界里探索,还是更享受iOS那个精致、安全、一切都被精心打理好的花园?这两个生态,各有拥趸,也各有道理。而现在,同样的精彩对决,正在AI世界全面上演。这就是我们今天要聊的话题——开源模型与闭源模型的路线之争。 要理解这场争论的意义,我们得先看清两条道路的本质差异。 第一条路,是闭源路线。它的代表是OpenAI的GPT系列、Anthropic的Claude,以及谷歌的部分Gemini版本。闭源的核心逻辑是:控制带来体验。公司像守护珍宝一样,不公开模型的内部参数和训练细节。用户只能通过API接口调用模型的能力,但看不到“大脑”内部是如何运作的。 这种模式的优势很明显:公司可以集中资源打磨极致的产品力,确保模型的安全、稳定和性能。你不必担心模型会输出什么离谱的内容,因为开发团队已经做了大量的对齐工作。就像苹果的iOS,你不用操心系统底层的兼容性问题,一切都流畅、省心。而且,由于商业利润可以反哺研发,闭源模型往往能冲击性能的顶峰,成为行业的“天花板”。 但硬币的另一面,是风险。闭源模型就像一个“技术黑箱”——我们不知道它为什么有时会出错,也不知道它的训练数据里是否藏着偏见。更重要的是,如果AI能力被少数几家公司垄断,创新的权力和商业的命脉就可能被攥在少数人手中。你用的AI能做什么、不能做什么、收费多少,完全由那家公司说了算。 第二条路,是开源路线。它的代表是Meta发布的Llama系列、法国的Mistral,以及国内的智谱、百川等部分模型。开源的核心精神是:开放成就生态。开发者可以下载完整的模型权重,在本地运行、修改、微调,甚至基于它开发全新的应用。 这条路就像是安卓生态。它让全球的开发者、研究者和爱好者都能参与到AI的进化中来。你可以根据自己的需求定制模型——医疗公司可以微调出专科AI,教育机构可以开发专属的辅导助手。因为代码和权重公开,任何人都可以审查模型的安全性和偏见,这让开源模型在透明性和可信度上具有天然优势。另外,你不用为每次API调用付费,部署在自己服务器上的成本远低于调用闭源API。对于被“卡脖子”风险敏感的国家或企业,开源模型提供了一条自主可控的路径。 当然,开源也并非完美。质量参差不齐是最大的挑战——不是每个开源模型都经过了严格的安全测试。而且,安全责任被分散了:一个开源模型被恶意使用(比如生成虚假信息、制造攻击工具),责任该由谁承担?这些都是在开放中需要解决的难题。 在这场路线之争中,有两个关键子议题值得你关注。 第一个是模型许可证。就像软件世界的开源协议一样,AI模型也有自己的“游戏规则”。有些许可证允许自由商用和修改,比如Llama的社区许可证;有些则附加了限制,比如月活用户超过一定规模需要单独授权。理解许可证,就是在理解“你拿到这个模型后,到底能做什么、不能做什么”。这是开源世界的法律边界。 第二个是红队测试。无论开源还是闭源,确保AI安全都是一道必答题。红队测试,就是雇佣一支“攻击队”——由安全专家、伦理学者甚至普通用户组成——专门去挑战AI的弱点。他们尝试诱导模型输出有害内容、绕过安全护栏、泄露敏感信息。通过这种“自己攻击自己”的攻防演练,开发团队可以提前发现漏洞并修补。闭源公司会把红队报告锁在保险柜里,而开源社区则可能公开部分测试结果,让全世界帮忙找问题。但无论如何,红队测试已经成为所有负责任AI开发者的标准动作。 那么,这场开源与闭源的竞争,最终将把AI world引向何方? 这绝不仅仅是一个技术选型问题。它关乎权力、创新和普惠。如果闭源胜出,AI可能成为少数科技巨头的“私有基础设施”,像今天的云计算一样,被几家公司把持。如果开源真正繁荣,AI则可能成为全人类共同建造的“公共智能基石”——就像互联网协议、Linux操作系统那样,由无数人贡献、被无数人使用、不为某一家公司所独有。 总结今天的内容:开源与闭源是AI世界的两条核心发展路径。闭源路线追求控制与极致体验,以OpenAI为代表;开源路线追求开放与生态繁荣,以Llama为代表。两者各有利弊,分别影响着AI的可信度、安全性和创新活力。许可证定义了开源模型的“游戏规则”,而红队测试则是无论开源闭源都必须进行的自我攻防演练。这场路线之争的结局,将深刻决定AI的未来是少数公司的垄断工具,还是全人类共享的智能基础设施。这不仅是工程师的战场,也是我们每个数字公民都应该关注和参与讨论的选择。 感谢收听本期《AI有点意思》,我们下期再会。
大家好,我是小艾,欢迎回到《AI有点意思》第二季。 在过去整整十三期的节目里,我们一直在围绕一个核心展开探索——语言。我们聊了Transformer如何理解语言,Token如何切割语言,提示词如何引导语言,甚至RAG和Function Calling如何扩展语言模型的能力边界。但不知你是否意识到,人类认识世界的方式,从来不止于文字。 我们用眼睛捕捉光影与色彩,用耳朵聆听旋律与喧嚣,用指尖感受质感与温度。我们通过五种感官的融合,才构建起对这个世界的完整认知。那么,AI的终极形态,也必然不止于文字。今天,我们要开启一个全新的篇章——多模态,也就是让AI能够理解并生成图像、声音、视频等多种信息的能力。这标志着AI正从“文本大脑”走向“全息大脑”。 那么,什么是多模态?简单说,就是让AI拥有“通感”的能力。它不再是一个只会读书的学者,而是一个能看、能听、能说、能画的艺术家。你给它一张照片,它能为你讲出照片背后的故事;你哼一段旋律,它能为你续写一首完整的曲子;你看一段无声视频,它能为你写出深度的解说词。 这个愿景听起来很科幻,但事实上,多模态AI已经在我们的生活中悄然铺开。Midjourney和Stable Diffusion画出的惊艳图像,Sora生成的逼真视频,甚至你手机相册里那个能“按图搜图”的功能——背后都是多模态技术的身影。 今天,我们就以其中最耀眼的明星——图像生成为例,来拆解多模态AI背后的核心魔法。而这场魔法的主角,叫做扩散模型。 扩散模型的工作原理,听起来像一种反向的“毁灭与创造”。我们可以用一个比喻来理解:想象一位画家站在一张完全由随机噪声构成的画布前——就是那种老式电视机没信号时的雪花屏,全是混乱的色点和噪点。这位画家的任务,不是从零开始构图,而是一遍又一遍地“去噪”。 第一步,画布上全是噪声,什么也看不清。 第二步,画家轻轻一抹,噪声稍微减少了一点,隐约能看到一些模糊的色块。 第三步,再一抹,色块开始呈现出轮廓,像是一团云或一片阴影。 第四步,第五步……经过几十甚至上百次的“去噪”,那团模糊的轮廓逐渐清晰起来——原来是一只睡着的猫,阳光洒在它的绒毛上,胡须根根分明。 这个从纯噪声开始,逐步去除噪声,最终“显影”出清晰图像的过程,就是扩散模型的核心逻辑。它并没有在“凭空创造”,而是在学习如何从混沌中还原秩序。 训练阶段,模型会学习“加噪”的反向过程:它看到海量的真实图片,也看到这些图片被逐渐添加噪声直到完全模糊的样子。通过无数次这样的“破坏与修复”训练,模型终于学会了“去噪”的规律——知道什么样的噪声组合,经过什么样的步骤,可以还原出一只猫、一朵花、一张人脸。 当你输入一段文字提示,比如“一只睡在阳光里的猫”,模型就从这个提示出发,引导它的“去噪”过程,确保每一步的“显影”都朝着符合你描述的方向前进。最终,它从一张噪声画布里,召唤出你心中的那只猫。 这个过程的精妙之处在于,它模仿了人类创作的本质:从模糊的灵感到清晰的成品。就像一位雕塑家面对一块粗糙的大理石,一点点剔除多余的部分,让沉睡在石头里的形象逐渐显现。扩散模型做的,就是从混沌的“噪声石料”中,雕琢出符合我们想象的图像。 当然,实际的扩散模型远比这个比喻复杂,它涉及复杂的数学概率和神经网络架构,但核心思想从未改变:学习从噪声到图像的“逆向工程”,然后用文字作为导航仪,指引这个“显影”的方向。 那么,当我们把这种图像生成能力,与语言模型的理解能力,再加上音频生成、视频生成等其他模态的技术结合起来,会发生什么? 那就是多模态的终极前景——真正的“通感”AI。 在这样的AI面前,文字、图像、声音不再是孤立的王国,而是被统一转化为一种内部的“数学语言”或“语义指纹”。一首诗可以被“翻译”成一幅画,一段旋律可以被“翻译”成一段舞蹈动作,一部无声电影可以被“翻译”成一篇深情的解说词。AI在多种模态之间自由穿梭,实现真正的跨界融合。 这场变革的影响将是革命性的: 设计师可以对着AI说“给我设计十款具有赛博朋克风格的T恤图案”,然后从生成的图像中挑选灵感;音乐人可以哼一段旋律,让AI自动生成完整的编曲和伴奏。 学生读一篇关于古埃及的文章,可以立刻让AI生成一幅金字塔内部结构的3D示意图;学历史时,可以让AI“复活”历史人物,用他们的口吻讲述自己的故事。 未来的游戏可能不再需要预先绘制所有场景,而是根据玩家的描述实时生成;看电影时,你可以让AI把结局改成你喜欢的版本,重新渲染出来。 这意味着,AI与物理世界的交互将变得无比自然和丰富。它不再只是一个藏在对话框里的“文字大脑”,而是一个能感知、能创造、能与我们全方位协作的“全息伙伴”。 总结今天的核心要点:多模态技术让AI从单一的“文本大脑”进化为能理解、生成图像、声音等多种信息的“全息大脑”。其中,扩散模型作为图像生成的核心引擎,通过“从噪声中逐步显影”的方式,实现了文字到图像的惊人转化。而多模态的终极前景,是让AI拥有“通感”能力,在文字、图像、声音之间自由穿梭,从而彻底重塑创意、教育、娱乐等领域的未来。 我们正在见证AI从“会说话”到“会看、会听、会创造”的历史性跨越。这不再是一场关于效率的革命,而是一场关于感知与表达的革命。 我是小艾,感谢收听本期《AI有点意思》,我们下期再会。
大家好,我是小艾,欢迎回到《AI有点意思》第二季。 经过前面十二期的解密,我们见证了AI从一颗“种子”成长为参天大树的全过程。我们知道了它如何通过预训练获得广博的知识,如何通过思维链进行复杂推理,也了解了驱动它运转的硬件引擎,以及那条“大力出奇迹”的缩放法则。 但你可能还有一个疑问:我们日常使用的ChatGPT、DeepSeek,和医院里辅助诊断的AI、律师事务所里审查合同的AI,它们是同一个模型吗?如果不是,这些“专科医生”级别的AI,又是如何从那个“博学的通才”变身而来的? 今天,我们就来揭秘AI从“通用”走向“专用”的三项核心“调教术”——微调、RLHF和蒸馏。它们是让AI能力真正落地、服务千行百业的关键密码。 首先,我们来回答一个根本问题:为什么不能直接用那个无所不知的通用大模型去做所有专业事? 想象一下,你有一位博览群书、知识渊博的“通才学者”。你可以和他聊历史、谈文学、讨论哲学,他都能侃侃而谈。但如果你让他起草一份符合中国法律的最新商业合同,或者让他根据你的病历给出精准的诊疗建议,他可能就力不从心了——不是因为他不够聪明,而是因为他缺乏那个特定领域的“实战经验”和“最新知识”。 这就需要我们的第一项调教术——微调。 微调,顾名思义,就是在已经预训练好的通用大模型基础上,用特定领域的高质量数据,对它进行“二次训练”或“专业进修”。这个过程,就像让那位通才学者去法学院进修三年,专门研读全部的法律条文、经典判例和最新司法解释。进修结束后,他就不再是一个泛泛而谈的通才,而是一位真正懂行的“法律专家”。 技术上,微调并不是从头训练模型,而是在原有“大脑”的基础上,对部分“神经连接”(参数)进行精细化的调整。它保留了模型原有的语言能力和通用知识,只是让它在特定领域的表现更加精准、更加专业。正是通过微调,一个通用模型可以被快速“复制”成无数个垂直领域的专家——金融顾问、医疗助手、代码审查员、法律助理…… 然而,微调解决的是“知识专业性”的问题,但还有一个更微妙的挑战:风格和价值观的对齐。你肯定不希望一个医学AI用冷冰冰、机械化的语气告诉你“你可能患有癌症”,也不希望一个教育AI在辅导孩子时说出不合时宜的话。这就引出了我们的第二项调教术——RLHF,全称是“基于人类反馈的强化学习”。 如果说微调是“教知识”,那RLHF就是 “塑风格”和“立规矩”。它的训练方式非常特别,不是靠书本,而是靠“打分”。 整个过程有点像培养一位礼仪师或辩手: 首先,让一个初步训练好的模型对同一批问题生成多个不同的答案。 然后,由人类标注员来对这些答案进行排序和评分——哪个回答更友善、哪个更有帮助、哪个更安全、哪个更符合伦理道德。比如,当用户问到敏感话题时,哪个回答既得体又不越界。 接着,这些人类偏好数据会被用来训练一个“奖励模型”,让它学会模拟人类的判断标准。 最后,用这个奖励模型作为“教练”,通过强化学习的方式,反复微调原始模型,鼓励它更倾向于产出那些被人类打了高分的“好答案”。 你可以把RLHF理解为用人类的价值观作为“标尺”,去精细地校准AI的行为模式。正是这项技术,让ChatGPT这样的产品从纯粹的知识问答工具,变成了那个“懂你”、“贴心”、“安全”的对话伙伴。它对齐的不是知识,而是价值观。 讲完这两项让模型变“专”变“好”的技术,我们再来看看第三项让模型变“小”变“快”的技术——蒸馏。 你可能已经注意到,像GPT-4这样的大模型,虽然能力强大,但运行一次需要消耗巨大的算力,根本无法在你的手机上运行。那么,那些能离线工作的语音助手、实时翻译软件,又是怎么来的呢?答案就是蒸馏。 蒸馏的核心思想是:让一个大而强的“教师模型”,去“教导”一个小而精的“学生模型”。 具体做法是,用庞大的教师模型生成海量的高质量问答对,然后用这些数据去训练一个体积小得多的学生模型。学生模型的任务不是去学习原始的训练数据,而是模仿教师模型的“思维方式”和“输出风格”。最终,这个学生模型在保持大部分核心能力的同时,参数量可能只有教师模型的几十分之一,运行速度却快了几十倍,能耗也大幅降低,从而可以被部署在手机、智能音箱等边缘设备上。 这就是为什么你的手机能实时把照片中的文字翻译成英文,为什么智能音箱能瞬间响应你的指令——背后都有一个经过“蒸馏”的小模型在默默工作。 总结这三项“进阶调教术”的战略意义:微调让通用模型成为行业专家,实现“专业化”;RLHF让AI的回答更符合人类价值观,实现“人性化”;而蒸馏则让强大的AI能力可以跑进我们口袋里的设备,实现“普惠化”。这三者共同构成了从“实验室里的通用模型”到“千行百业的专用服务”之间的关键桥梁。正是它们,让尖端AI技术得以突破算力和场景的限制,真正飞入寻常百姓家,融入我们工作和生活的每一个角落。 我是小艾,感谢收听本期《AI有点意思》,我们下期再会。
哈喽大家好,欢迎回到《AI有点意思》,我是小艾。最近科技圈有个现象级顶流,GitHub上蹿红速度超过Linux,全网都在“养虾”——它就是OpenClaw,外号“小龙虾”。今天这期特别篇,咱们用大白话把这只“虾”讲透:它怎么来的、怎么干活、能做什么、又有哪些坑,不搞玄学、不藏技术本质。 先聊聊这只“虾”的诞生,故事特别接地气。2025年11月,奥地利开发者Peter Steinberger,周末闲不住写了个小工具,叫ClawdBot,把Claude大模型和电脑操作绑在一起,能用聊天软件控制电脑。本来就是个周末玩具,没想到发到GitHub后炸了。因为图标是红色小龙虾、核心是用“爪子”干活,大家顺口叫它小龙虾,项目改名OpenClaw,彻底火出圈。短短几个月星标破20万,成为GitHub史上增长最快的开源项目之一,全民“养虾”就此开始。 很多同学会问:ChatGPT、DeepSeek不也很厉害吗,小龙虾到底不一样在哪?核心一句话:传统AI是“动口不动手”,小龙虾是“既会想、又能干”。它不是新的大模型,没有自己的“大脑”,而是借用的Claude、GPT、DeepSeek等这些成熟模型;它的绝活是给AI装上双手和眼睛,能接管你的鼠标、键盘、文件系统,像人一样真操作电脑。 它的工作机制,咱们拆成三步,超好懂。第一步是听指令:不用装新App,微信、Telegram、钉钉这些你常用的聊天工具,就是它的遥控器,发一句自然语言就行,比如“帮我整理本周邮件”“把桌面文件按科目分类”。第二步是做规划:它的中央控制器把模糊任务拆成一步步动作,先做什么、后做什么,清清楚楚。第三步是动手干:调用系统权限,模拟点击、输入、读写文件,全程不用你插手,干完直接把结果发回给你。这就是感知—决策—执行的完整闭环,AI从“顾问”变成了“员工”。 那养只小龙虾,到底能干嘛?给大家举几个贴近学生和普通人的场景。学习上,让它整理网课笔记、按章节归类资料、搜文献并提炼要点,甚至帮你检查作业格式;生活里,出门前发消息让它订机票、查天气、整理出行清单;办公提效更绝,自动归档邮件、汇总报表、填表单、跑简单代码,复杂任务一键搞定。它还支持本地部署,数据存在自己设备里,隐私更安全,这也是大家爱“养虾”的重要原因。 火归火,小龙虾的局限和风险,咱们必须讲明白,不吹不黑。首先是门槛不低:部署要命令行、配环境、连大模型API,对纯小白不友好,现在更多是技术爱好者在玩。其次是烧钱:每一步操作都要调用大模型,Token消耗惊人,复杂任务一天可能花上百块,普通用户未必“养得起”。然后是稳定性一般:遇到复杂界面、弹窗干扰,可能卡壳、做错步骤,甚至漏看关键信息。最关键的是安全风险:要给它系统最高权限,相当于把家门钥匙全交出去,一旦有漏洞,文件泄露、被恶意利用的风险真实存在,开发者也明确说,不建议非技术用户随便用。 最后做个总结:OpenClaw小龙虾不是噱头,是AI从对话走向执行的重要一步。它让我们看到,未来AI不只是陪聊、给答案,而是能帮我们干活、省时间的数字助手。它的核心价值,是打通了“智能”和“行动”,让AI真正落地到日常设备里。但它也不是万能神器,有门槛、有成本、有风险,现在更像是前沿探索,不是人人必备的工具。 好了,本期关于OpenClaw小龙虾的特别篇就到这里。你有没有试过“养虾”?或者想让AI帮你做什么事?欢迎在评论区留言,下期再见~
大家好,我是小艾,欢迎回到《AI有点意思》第二季。 在上一期节目里,我们走进了AI的硬件车间,认识了驱动AI的三大动力引擎——GPU、TPU和NPU,理解了“算力”这个硬通货的价值。但不知你是否思考过一个更根本的问题:为什么所有科技巨头都在不惜代价地做“更大”的模型?从百亿参数到千亿参数,再到传闻中的万亿参数,这仅仅是盲目的军备竞赛,还是背后隐藏着一条清晰可循的“金科玉律”? 今天,我们就来揭示这条驱动了整个AI浪潮的底层法则——Scaling Law,中文叫“缩放法则”。它解释了为什么“大力”真的能“出奇迹”,也为我们理解AI的未来发展提供了一把钥匙。 故事要从2020年说起。那一年, OpenAI的研究人员发表了一篇颇具影响力的论文。他们做了一个看似枯燥、实则意义深远的实验:系统地研究模型性能与三个核心要素之间的关系——模型参数规模、训练数据量,以及投入的计算资源。 他们发现了一个惊人的规律:当你把模型的参数增加一倍,同时把训练数据也增加一倍,并投入相应的计算资源时,模型的性能并不是随机波动,而是会以一种非常稳定、可预测的方式提升。这种关系如果用图表画出来,是一条平滑的幂律曲线。也就是说,模型性能与规模之间,存在一种数学上可预测的正比关系。 这就是 Scaling Law 的核心思想:只要规模足够大,投入足够多,模型的能力就能稳定地、可预期地变强。 这条规律的意义怎么强调都不过分。在此之前,训练AI更像是一门“炼金术”——你调整模型架构、优化算法,但效果如何,常常要等训练结束才知道,充满了不确定性。而Scaling Law的出现,相当于为整个行业提供了一张清晰的“藏宝图”。 它告诉科技公司们:沿着“扩大规模”这条路挖下去,就很可能挖到“更强智能”的金矿。你不需要再在架构上做太多精巧的、不确定的创新,只需要把模型做得更大,把数据喂得更多,把算力堆得更足,性能的提升就是可以预期的。这就像找到了一个“确定性”的按钮。 正是这条法则,直接驱动了随后几年的“千亿、万亿参数模型”竞赛。为什么GPT系列一代比一代大?为什么谷歌、Meta、Anthropic都在疯狂扩充模型规模?因为Scaling Law告诉他们,这是通往更强智能的一条已被验证的、相对确定的路径。它不是玄学,而是经验科学。 我们可以用一个比喻来理解:Scaling Law就像给AI的“大脑”划定了一条成长曲线。一个孩子的大脑神经元数量越多(参数),他接触到的书籍和对话越多(数据),他花在学习上的时间越长(算力),他的认知能力和知识水平就大概率会更高。虽然个体有差异,但在统计意义上,这条规律是成立的。 然而,任何法则都有其边界。当我们沿着这条“藏宝图”狂奔时,一些深刻的疑问也开始浮现: 第一,数据的极限。模型训练需要海量的、高质量的文本数据。有人估算,按照目前的扩张速度,我们可能在几年内就会耗尽人类文明积累的所有高质量文本数据。当“燃料”枯竭,Scaling Law还能继续生效吗? 第二,能源的极限。我们上一期提到,训练GPT-4的耗电量已经堪比一个小型城市。如果未来出现十亿、百亿参数的模型,它对电力的需求将达到何种天文数字?地球的能源供给能否支撑? 第三,收益递减的临界点。虽然Scaling Law告诉我们性能会随着规模提升,但这种提升的“性价比”是否会逐渐下降?当为了提升最后那1%的性能,需要消耗之前100倍的成本时,这条路在经济上还走得通吗? 更深层的思考是:“缩放”真的是通往通用人工智能的唯一道路吗?人类的智能,并不仅仅是“大脑更大”就能实现的。我们拥有常识、因果推理、抽象思维和情感理解,这些是否都能通过单纯地扩大语言模型的规模而“涌现”出来?还是说,我们需要全新的架构、全新的学习范式? 这些问题,至今没有确定的答案。Scaling Law在过去几年里指引了AI的飞跃,但它可能只是通往更高智能的“第一段阶梯”。未来的路,或许需要新的法则来指引。 总结今天的核心内容:Scaling Law,即“缩放法则”,揭示了模型性能与参数规模、数据量和计算量之间的可预测幂律关系。它为“大力出奇迹”提供了理论依据,成为驱动AI巨头们竞逐更大模型的核心动力。然而,这条法则并非没有边界,数据的枯竭、能源的极限以及收益递减的可能,都让我们不得不思考:Scaling Law是通往通用智能的终极法则,还是仅仅是一个辉煌的开端?对这个问题的探索,将定义AI下一个十年的方向。 我是小艾,感谢收听本期《AI有点意思》,我们下期再会。
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧