S3E05: Agent能操控电脑和浏览器了!——Computer Use + WebMCP
AI有点意思

S3E05: Agent能操控电脑和浏览器了!——Computer Use + WebMCP

8分钟 55 1天前
节目简介
来源:小宇宙
大家好,欢迎回到《AI有点意思》。我是小艾。
前几期我们聊了Agent的定义、工具箱、记忆力和规划能力。这一期,我们来聊一个真正让你觉得“AI要成精了”的话题——Agent直接操控你的电脑和浏览器。
你想象一下这个场景:你正在做一份学校活动的Excel表格,里面有几十个人的报名信息。你希望把这堆数据整理成一份漂亮的报告,然后上传到一个网页系统里。以前你要手动做图表、写总结、打开浏览器、登录、上传……一套流程下来至少半小时。
但如果你的电脑里有一个Agent,你只需要说一句话:帮我把这份Excel整理成报告,然后上传到那个网页。接下来,你的Agent会自己打开Excel,选中数据、生成图表、写出分析文字;然后自动打开浏览器,输入账号密码登录,找到上传入口,把文件拖进去,点击提交。全程你只需要端着咖啡在旁边看着。
这不是科幻电影。2026年,这项技术已经变成现实了。今天我们就来拆解两个让Agent“长出手脚”的革命性技术:Anthropic的Computer Use和谷歌的WebMCP。
我们先从第一个讲起:Computer Use。
Computer Use是AI公司Anthropic在2026年3月为Claude模型增加的一项新能力。名字很直白——让AI学会“使用电脑”。怎么用的呢?它的工作方式跟我们人类操作电脑几乎一模一样。
想象一下,你坐在电脑前,眼睛看着屏幕,脑子里决定“我要点那个按钮”,然后手移动鼠标、点击。Computer Use也是这个逻辑:Agent可以截取你电脑屏幕的截图,用视觉模型识别出屏幕上有什么——哪里有按钮、哪里是输入框、哪里是文件图标。然后,它像人一样决定“我要点这里”、“我要在那里打字”,最后通过底层的系统接口控制鼠标移动、点击、键盘输入。整个过程不需要软件开发者提前给Agent开后门,不需要专门写API,Agent像一个新来的实习生,直接看着屏幕学着操作你的任何软件。
这意味着什么?意味着Agent不再局限于那些专门为它开放接口的应用程序了。你电脑上任何一个软件——老旧的财务系统、学校的内网平台、甚至是一个古董级的单机游戏,只要是人能操作的,Agent就能操作。因为对Agent来说,它看到的和你看到的是同一张屏幕截图。
当然,Computer Use也有它的局限性。因为它要靠“看”屏幕来操作,所以速度比较慢。每一次截图、识别、移动鼠标、点击,都需要时间。而且如果屏幕分辨率变化、窗口大小调整,它可能会“看花眼”,点错地方。这就像你闭着眼睛操作电脑,只靠别人描述屏幕内容给你听——虽然能做,但肯定不如自己直接上手快。
于是,第二个技术登场了:WebMCP。
WebMCP是谷歌Chrome团队在2026年2月发布的一个协议。它的全称是Web Model Context Protocol,专门用来解决Agent操作网页的效率问题。
你想想,Agent操作网页时,如果用Computer Use的方式,那就是“模仿人类”:看屏幕截图、找登录按钮、移动鼠标点击、找用户名输入框、打字……每一步都很慢。而且网页经常改版,按钮换个位置,Agent可能就找不到了。
WebMCP换了一种思路:不让Agent“装成人”,而是让Agent直接和网页的“底层代码”对话。打个比方,普通人进一个网站,需要看导航栏、找链接、点来点去。但如果你是网站的内部管理员,你直接拿数据库查数据、用后台接口发指令,几秒钟就能搞定别人花十分钟的操作。WebMCP就是给Agent开通了这条“管理员通道”。
有了WebMCP,Agent可以通过Chrome浏览器提供的API,直接读取网页的结构化信息、直接提交表单、直接触发按钮事件,完全不需要模拟鼠标点击和屏幕截图。订机票的时候,Agent只需要向航空公司的网站底层发送一个指令:查询5月20日北京到上海的航班,网站直接返回数据,整个过程不超过两秒钟。而且无论网站怎么改版,只要底层接口不变,Agent都能正常工作。
目前,WebMCP已经被集成到Chrome浏览器的稳定版本中,任何安装了Chrome的用户都可以通过浏览器扩展或者开发者工具来让Agent使用这个能力。国内的360浏览器、QQ浏览器等基于Chromium内核的浏览器,也在跟进支持。
那么,如果把Computer Use和WebMCP结合起来,会发生什么呢?
我们回到开头的例子。你的Agent需要完成“整理Excel并上传网页”这个任务。它会这样分工:当需要操作Excel这个桌面软件时,它启用Computer Use模式——看屏幕截图,移动鼠标,选中数据,生成图表。当需要操作网页时,它切换到WebMCP模式——直接通过浏览器底层API登录、上传,几秒钟搞定。两种模式无缝切换,你完全感觉不到区别。
目前,已经有不少开源项目在尝试融合这两种技术。比如browser-use这个项目,专门做浏览器自动化,同时支持传统的模拟点击和新的WebMCP协议;还有OpenClaw的最新版本,也在尝试引入Computer Use能力,让它的全平台控制从“支持API的软件”扩展到“任何桌面软件”。
当然,这些强大的能力也带来了新的风险。当Agent可以操作你的整个电脑、可以模拟鼠标键盘、可以直接和网页底层交互时,一旦被恶意利用,后果不堪设想。比如一个恶意的Agent可以偷偷把你的文件上传到陌生服务器,或者冒充你登录网银转账。这也是为什么像Anthropic和谷歌在推出这些功能的同时,都设置了严格的权限控制——每次Agent要进行敏感操作(比如输入密码、访问个人文件夹),都需要弹出窗口让用户确认。安全问题我们会在后面单独用一整期来聊。
现在我们总结一下今天的核心要点。
第一,Computer Use让Agent通过“看屏幕截图+模拟鼠标键盘”的方式,像人一样操作任何桌面软件,不需要软件提前开放接口。它的优点是通用性强,缺点是速度较慢,且容易受界面变化影响。
第二,WebMCP是谷歌Chrome推出的协议,让Agent通过浏览器底层API直接和网页“对话”,不需要模拟点击。它的优点是速度快、稳定,缺点是目前只适用于Chrome浏览器及其内核的浏览器,不能操作桌面软件。
第三,两者结合可以实现真正的“全自动化”——桌面软件用Computer Use操作,网页用WebMCP操作,Agent可以完成从数据处理到网络提交的一站式任务。
第四,这些技术大大扩展了Agent的应用场景,但也带来了安全风险。权限控制和用户确认机制是必不可少的护栏。
下一期,我们会聊一个更有趣的话题——多Agent系统。如果一个Agent不够用,那就来一群!多个Agent怎么像团队一样协作完成任务?它们之间会吵架吗?怎么分工?我们下期见。
这里是《AI有点意思》,我是小艾。每周和你一起,用最轻松的方式,看懂最前沿的AI。下期再见。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧