晚点聊 LateTalk - 130: 手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机|Agent#4 - EarsOnMe

晚点聊 LateTalk
130: 手机Agent大幕拉开！从刚上线的AutoGLM 2.0聊起，大模型如何改造手机|Agent#4

时长：

96分钟

播放：

1.22万

发布：

3周前

主播...

简介...

「智谱 AutoGLM 2.0 上线，字节酝酿“豆包手机”，苹果和华米OV 也不会缺席。」
本周三，智谱发布了首个手机通用 Agent，AutoGLM 2.0，能点外卖、买票、订餐；无邀请码直接用、免费。
（这期的封面就是，AutoGLM 上周日给参加产品交流会的朋友点点的奶茶~）
从市场规模和人群广度看，网页端的 Agent 是湖，手机端的 AI Agent 才是海。因为在中国，每天用手机的人，几乎等于总人口；而每天用电脑的人则少得多，很多人的日常生活和工作里根本不需要电脑。
图注：AutoGLM 2.0，电脑端、移动端都可用
现在，大模型公司、移动互联网巨头和手机公司，都想到这片海里寻宝，手机端 Agent 将来一定会是一个兵家必争之地。
现在我们已经看到了一些苗头：《晚点》昨天就发布了一篇独家报道，讲字节的豆包手机进展；据此前市场信息，美团的王莆中亲自带队做生活服务助手 beam；苹果、华米OV也一定不会缺席手机 Agent。
这期，我们邀请 AutoGLM 2.0 的算法、工程和产品负责人，刘潇。从 AutoGLM 切入，我们一起聊了移动端 Agent 目前的产品形态；大模型公司、超级 App 厂商和手机硬件厂商，在移动端 AI 上的三方竞合关系；也通过回顾 AutoGLM 的开发过程，梳理了这类产品的难点、研发思路和未来的迭代方向。
1999 年出生的刘潇，今年 26 岁，本科毕业于清华大学计算机系。
制作这期时，我算了一下，这是我们第四期专门聊 Agent 了，之后也会有更多相关内容。所以我给这 4 期都加了 Agent 后缀和编号，方便大家检索往期。
本期主播：程曼祺，《晚点 LatePost》科技报道负责人
本期嘉宾：刘潇，智谱 AutoGLM 算法、工程、产品负责人
时间线跳转：
-AutoGLM 2.0 速览
01:57 能点奶茶、能发帖，不占用屏幕、无邀请码直接上线、免费
05:作为用户的疑问：隐私、安全如何保障？关键步骤需接管，真能省事？
09:06 定时任务，高频但尚待解锁的场景
12:05 AI 竞争与外卖大战交汇：点外卖、找美食可能会被用得最多
-终端 AI 三方竞合：大模型、超级 App、手机厂商
14:14 当 AutoGLM 来到美团与用户之间，美团们怎么想？
16:12 Agent 调 App 的方式：GUI（图形界面）和 API 会长期并存
20:59 手机个人通用 Agent 和超级 App 内部 Agent（如美团 beam项目）的关系？
25:52 移动端尚没有 Web 端的 MCP 生态
28:44 手机厂商也在做 Agent，智谱与荣耀、三星的合作进展
32:53 华为、小米这样的公司有多种终端，它们推跨端 Agent 的优势？
33:55 智谱作为大模型公司自己做硬件？暂时没考虑
-近 30 个月的 AI Agent 探索
37:17 23 年 3 月 GPT-4 发布，刘潇的重心从预训练转向 Agent
42:39 23 年 4 月到 8 月，做出全球首个评估 Agent 能力的基准 Agent Bench
47:25 训练冷启动，人来构造数据
53:44 强化学习（RL）初现威力，离线强化学习已能大幅提升效果
01:01:22 o1、R1 的启发：做 RL 时，要用结果来 supervise 模型，而非用过程
01:04:02 RL 的两个关键：环境和激励
01:11:12 24 年 10月至今：工程上实现不占用电脑，以更大规模的在线强化学习提升纠错能力
01:15:16 激烈竞争的前提是，移动端 Agent 真的好用、成熟了
01:18:11 需要提升：模型能力、Infra、成本优化
01:28:56 产品马上发布：忐忑、期待和迭代计划
-连点成线
01:32:14 110 期，Agent 入口大战的预言回顾
01:34:54 我们聊过的那些强化学习
特别企划：
《晚点 LatePost》和 AI 产品点评网站「观猹」联合发起了一份 lite 调研问卷，只有 10+ 个选择题，填写仅需3-5分钟！我们想了解：AI 应用产品在“模型调用”方面的真实现状——到底在不同场景中，哪些模型最多人用？最受欢迎？
调研数据脱敏后会成文公开，分享给大家，所有原始数据将被严格保密。问题也不涉及产品名称等敏感信息。
欢迎听友中的各位 AI 产品开发者和创造者来填写！十分感谢！！😄填写链接：
https://www.wjx.cn/vm/eGkVD4a.aspx#
相关链接：
《晚点独家丨“豆包手机” 酝酿中，字节为大模型寻硬件载体》
《晚点聊》110: 与明势夏令聊Agent竞争：通用入口之战就要来，创业要做垂、做专
《晚点聊》96: 和楼天城聊 Robotaxi：学习人类优秀司机，让我绝望
晚点聊 106 期：与真格戴雨森长聊 Agent：各行业都会遭遇“李世石时刻”，Attention is not all you need
《晚点聊》111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端
剪辑制作：Nick
本期主播：
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

评价...

空空如也

小宇宙热门评论...

桃酥-

3周前湖南

试用了，体验很卡很差。你们还是专心做模型吧，GLM4.5，4.5V 进步很大

Joes东

3周前广东

洗澡、跑步、美食时间都是在enjoy my time，为什么还要想着去找agent做事呢，这产品思路还是kill your time，没必要。

狗头老王

3周前北京

更大概率是手机厂商的机会

忱_r6AK

3周前云南

这类通用的手机 Agent 现阶段的所有尝试感觉都是在为主机厂做嫁衣，等你们模式跑通了主机厂沿用思路搞一个集成到系统，Bingo 。基于某一个特定领域或场景的垂直 Agent 貌似更加适合三方开发团队。

曼祺_MatchQ

3周前北京

从市场规模和人群广度看，网页端 Agent 是湖，手机端 Agent 才是海。现在，大模型公司、移动互联网巨头和手机公司，都想到这片海里寻宝。他们各自会有怎样的命运，他们之间怎么合纵连横？会是堪比 One Piece 的热闹大戏。预告一下AutoGLM 2.0 上线的后续剧情： -字节酝酿中的豆包手机（见《晚点》前天的独家报道，shownotes里有贴） -王莆中亲自带队的美团生活助手（代号beam -有资本观望的腾讯 …… -一定会出招的华米OV 诸位，我们一起继续前排吃（guan）瓜（cha）！

米糕_

3周前上海

借晚点的评论区po一下产品使用体验：作为skywork，genspark，扣子空间，deep research，flowith，manus（最近没充值了）等通用agent，以及部分垂直场景agent日常by场景by任务类型都会使用到的user而言，先抛使用结论：AutoGLM的整体使用体验，已经差到让人不敢相信这居然是智谱团队做出来的产品效果… 其他的体验类不说了，说两个很硬伤的Facts层面的大BUG！！！（因为是facts层面，所以有点难接受…） 1、任务一：给了往返航班日期和目的地请agent帮忙做国庆期间旅行攻略，结果，在by day的行程规划中，给我规划了9月31日的行程！！！这种错误，我使用的所有AI产品至今还没遇到过！（而且这个问题已经通过web端提交反馈，几天了都没任何回应） 2、任务二：给了某个小红书账号名字，让agent帮忙对该小红书账号做一个账号分析！结果，agent输出信息时，愣是把该账号原本近10万的粉丝数，输出成很扎眼的3400多粉丝数… 过程中在虚拟机登陆了小红书账号也确实看到虚拟机找到了正确账号在浏览，居然最终对实时性信息还能有这种数量级上的差别！！！（甚至3400多这个数字跟账号粉丝数数字都没有什么直接关系）这种output的交付，都不谈质量高低了，基本上事实层面都出这么大问题！感觉这样的产品完全不对不起我一个任务花心思好好写prompt的时间！！！所以，还是希望产品团队，能对用户时间和用户体验，存有一点点尊重！也希望产品团队能爱惜点brand羽毛（毕竟从chatGPT和Manus可以看出来，AI产品竞争中目前也已经出现了“心智占领”和“品牌红利”的商业化效应）

曼祺_MatchQ

3周前北京

【特别企划】《晚点 LatePost》和 AI 产品点评网站「观猹」联合发起了一份轻型问卷，调研「大模型真实调用」。问卷只有 10+ 个选择题，填完仅需 3-5 分钟！我们想了解：在多样的AI 应用和场景中，到底哪些模型被用得最多？最受欢迎？问卷内容不涉及产品名称等信息，调研数据在脱敏后也会成文公开，分享给大家，所有原始数据将被严格保密。欢迎听友中的 AI 产品开发者和创造者来填写！十分感谢！！😄 填写链接：https://www.wjx.cn/vm/eGkVD4a.aspx#