AI有点意思 - S3E05: Agent能操控电脑和浏览器了！——Computer Use + WebMCP - EarsOnMe

主播

JingyuS 1 档播客

Leksah 1 档播客

zhenlohuang 1 档播客

节目简介

来源：小宇宙

大家好，欢迎回到《AI有点意思》。我是小艾。
前几期我们聊了Agent的定义、工具箱、记忆力和规划能力。这一期，我们来聊一个真正让你觉得“AI要成精了”的话题——Agent直接操控你的电脑和浏览器。
你想象一下这个场景：你正在做一份学校活动的Excel表格，里面有几十个人的报名信息。你希望把这堆数据整理成一份漂亮的报告，然后上传到一个网页系统里。以前你要手动做图表、写总结、打开浏览器、登录、上传……一套流程下来至少半小时。
但如果你的电脑里有一个Agent，你只需要说一句话：帮我把这份Excel整理成报告，然后上传到那个网页。接下来，你的Agent会自己打开Excel，选中数据、生成图表、写出分析文字；然后自动打开浏览器，输入账号密码登录，找到上传入口，把文件拖进去，点击提交。全程你只需要端着咖啡在旁边看着。
这不是科幻电影。2026年，这项技术已经变成现实了。今天我们就来拆解两个让Agent“长出手脚”的革命性技术：Anthropic的Computer Use和谷歌的WebMCP。
我们先从第一个讲起：Computer Use。
Computer Use是AI公司Anthropic在2026年3月为Claude模型增加的一项新能力。名字很直白——让AI学会“使用电脑”。怎么用的呢？它的工作方式跟我们人类操作电脑几乎一模一样。
想象一下，你坐在电脑前，眼睛看着屏幕，脑子里决定“我要点那个按钮”，然后手移动鼠标、点击。Computer Use也是这个逻辑：Agent可以截取你电脑屏幕的截图，用视觉模型识别出屏幕上有什么——哪里有按钮、哪里是输入框、哪里是文件图标。然后，它像人一样决定“我要点这里”、“我要在那里打字”，最后通过底层的系统接口控制鼠标移动、点击、键盘输入。整个过程不需要软件开发者提前给Agent开后门，不需要专门写API，Agent像一个新来的实习生，直接看着屏幕学着操作你的任何软件。
这意味着什么？意味着Agent不再局限于那些专门为它开放接口的应用程序了。你电脑上任何一个软件——老旧的财务系统、学校的内网平台、甚至是一个古董级的单机游戏，只要是人能操作的，Agent就能操作。因为对Agent来说，它看到的和你看到的是同一张屏幕截图。
当然，Computer Use也有它的局限性。因为它要靠“看”屏幕来操作，所以速度比较慢。每一次截图、识别、移动鼠标、点击，都需要时间。而且如果屏幕分辨率变化、窗口大小调整，它可能会“看花眼”，点错地方。这就像你闭着眼睛操作电脑，只靠别人描述屏幕内容给你听——虽然能做，但肯定不如自己直接上手快。
于是，第二个技术登场了：WebMCP。
WebMCP是谷歌Chrome团队在2026年2月发布的一个协议。它的全称是Web Model Context Protocol，专门用来解决Agent操作网页的效率问题。
你想想，Agent操作网页时，如果用Computer Use的方式，那就是“模仿人类”：看屏幕截图、找登录按钮、移动鼠标点击、找用户名输入框、打字……每一步都很慢。而且网页经常改版，按钮换个位置，Agent可能就找不到了。
WebMCP换了一种思路：不让Agent“装成人”，而是让Agent直接和网页的“底层代码”对话。打个比方，普通人进一个网站，需要看导航栏、找链接、点来点去。但如果你是网站的内部管理员，你直接拿数据库查数据、用后台接口发指令，几秒钟就能搞定别人花十分钟的操作。WebMCP就是给Agent开通了这条“管理员通道”。
有了WebMCP，Agent可以通过Chrome浏览器提供的API，直接读取网页的结构化信息、直接提交表单、直接触发按钮事件，完全不需要模拟鼠标点击和屏幕截图。订机票的时候，Agent只需要向航空公司的网站底层发送一个指令：查询5月20日北京到上海的航班，网站直接返回数据，整个过程不超过两秒钟。而且无论网站怎么改版，只要底层接口不变，Agent都能正常工作。
目前，WebMCP已经被集成到Chrome浏览器的稳定版本中，任何安装了Chrome的用户都可以通过浏览器扩展或者开发者工具来让Agent使用这个能力。国内的360浏览器、QQ浏览器等基于Chromium内核的浏览器，也在跟进支持。
那么，如果把Computer Use和WebMCP结合起来，会发生什么呢？
我们回到开头的例子。你的Agent需要完成“整理Excel并上传网页”这个任务。它会这样分工：当需要操作Excel这个桌面软件时，它启用Computer Use模式——看屏幕截图，移动鼠标，选中数据，生成图表。当需要操作网页时，它切换到WebMCP模式——直接通过浏览器底层API登录、上传，几秒钟搞定。两种模式无缝切换，你完全感觉不到区别。
目前，已经有不少开源项目在尝试融合这两种技术。比如browser-use这个项目，专门做浏览器自动化，同时支持传统的模拟点击和新的WebMCP协议；还有OpenClaw的最新版本，也在尝试引入Computer Use能力，让它的全平台控制从“支持API的软件”扩展到“任何桌面软件”。
当然，这些强大的能力也带来了新的风险。当Agent可以操作你的整个电脑、可以模拟鼠标键盘、可以直接和网页底层交互时，一旦被恶意利用，后果不堪设想。比如一个恶意的Agent可以偷偷把你的文件上传到陌生服务器，或者冒充你登录网银转账。这也是为什么像Anthropic和谷歌在推出这些功能的同时，都设置了严格的权限控制——每次Agent要进行敏感操作（比如输入密码、访问个人文件夹），都需要弹出窗口让用户确认。安全问题我们会在后面单独用一整期来聊。
现在我们总结一下今天的核心要点。
第一，Computer Use让Agent通过“看屏幕截图+模拟鼠标键盘”的方式，像人一样操作任何桌面软件，不需要软件提前开放接口。它的优点是通用性强，缺点是速度较慢，且容易受界面变化影响。
第二，WebMCP是谷歌Chrome推出的协议，让Agent通过浏览器底层API直接和网页“对话”，不需要模拟点击。它的优点是速度快、稳定，缺点是目前只适用于Chrome浏览器及其内核的浏览器，不能操作桌面软件。
第三，两者结合可以实现真正的“全自动化”——桌面软件用Computer Use操作，网页用WebMCP操作，Agent可以完成从数据处理到网络提交的一站式任务。
第四，这些技术大大扩展了Agent的应用场景，但也带来了安全风险。权限控制和用户确认机制是必不可少的护栏。
下一期，我们会聊一个更有趣的话题——多Agent系统。如果一个Agent不够用，那就来一群！多个Agent怎么像团队一样协作完成任务？它们之间会吵架吗？怎么分工？我们下期见。
这里是《AI有点意思》，我是小艾。每周和你一起，用最轻松的方式，看懂最前沿的AI。下期再见。

S3E05: Agent能操控电脑和浏览器了！——Computer Use + WebMCP

加入我们的 Discord

扫描微信二维码

播放列表