晚点聊 LateTalk - 111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端 - EarsOnMe

晚点聊 LateTalk
111: Pokee.ai 朱哲清的 Agent 造法：强化学习作后端，语言模型作前端

时长：

94分钟

播放：

9,893

发布：

3个月前

主播...

简介...

「长期看，LLM 是 Agent 和人类之间交互的前端，后端则靠 RL 模型完成工作。」
几乎所有主流 AI Agent 产品，都把大语言模型（LLM），或者它的多模态升级版当作“大脑”，靠一个或几个 LLM 编排工作、调用工具。
但也有不同的路。这期节目的嘉宾，Pokee.ai 的创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。
Bill 提到，把 LLM 当作大脑时，Agent 调用工具的能力有限。这是因为 LLM 使用工具时，需要先把工具描述、输入、输出等相关信息传入上下文，而 LLM 支持的上下文长度有限。把 Agent 的决策中枢换成另一个强化学习模型可以解决这个问题。
本期节目中，Bill 还聊到优秀的通用 Agent 需要具备四个要素：实现任务比人快、无需人工干预、能读取信息也能写入信息、成本低。Agent 产品的壁垒不在技术，而在于和用户的工作流深度绑定。
此外，我们还和 Bill 聊了他对通用 Agent 接下来竞争态势的判断，以及他在强化学习还并没有成为显学时，便相信强化学习潜力的原因。
Bill 本科开始便在海外留学，不熟悉、常用一些专业术语的中文表达。节目中高频提及的英文术语，可参考 Shownotes 文末附录。
本期嘉宾：
Pokee.ai 创始人，前 Meta 应用强化学习负责人、工程经理朱哲清
时间线：
-创业前，花近十年研究、落地强化学习算法
04:02 一边在斯坦福读博士，一边在 Meta 上班，每周工作 110 个小时
07:20 拒绝 LLM 创业机会，留在强化学习主航道上
10:17 刚开始研究强化学习的时候，强化学习还并不是显学
16:52 DeepSeek R1 带火了强化学习，让投资人意识到强化学习重要性
-强化学习做 Agent 的优势
19:26 现有 LLM 写入能力较弱，调用工具数量有限
23:51 长期看，LLM 可能只是模型和用户的交互层，Agent 之间沟通不一定用语言
-如何设计一款 Agent 产品，服务专业用户
31:02 保留用户控制节点，避免“自由落体”的失控感
36:36 Pokee.ai 想服务专业用户，未来还要进入企业工作流
43:46 一项子任务失败，不一定挡住 Pokee.ai 完成其他子任务
45:33 抛开 browser-use，强化学习 Agent 完成一项任务只需要数十秒
46:53 Pokee.ai 最初没用 MCP，团队自己设计更简单的协议
48:47 目前主流做 Agent 的方法还是以 LLM 为核心
50:00 优秀 Agent 的四要素：速度快、无需干预、能读能写、成本低
-创业故事：从垂直 Agent 回归通用 Agent
58:20 Pokee.ai 团队全职员工只有四人，成员主要来自 Meta
59:30 早期产品：旅行规划助手 / Shopify 助手
01:02:07 强化学习爆火后，回归创业初衷做通用 Agent
01:07:33 Manus 出圈是意料之内
01:09:54 Pokee.ai 发布产品不会用邀请码，单次任务成本是同类产品的 1/10
01:10:59 技术不是 Agent 的护城河，重要的是和用户工作流绑定
01:20:24 Pokee.ai 在做通用 Agent，但也能帮垂直 Agent 落地
01:22:15 Agent 行业最后会存留三到五家公司，接下来是各个通用 Agent 差异化的时候
01:26:03 判断技术潜力的好方法：Toy Example（玩具案例）
附录：
RL（Reinforcement Learning）：强化学习；
policy：策略，强化学习语境下指模型完成任务的方式；
exploration：探索，强化学习语境下指探索可能完成任务的新路径；
exploitation：利用，强化学习语境下指利用已知信息，选择最优的动作，和 exploration 相对；
reward model：奖励模型，是强化学习算法的一部分，用于评价某个动作的好坏；
ground truth：真值，指训练强化学习模型时使用的标准答案；
prosumer（professional consumer）：专业用户，本期节目语境下指用 Agent 产品完成工作需求的用户；
context length：大模型的上下文长度；
browser-use：使 AI 能够像人类一样浏览、操作网页的开源工具；
Monte-Carlo Tree Search：一种基于随机模拟的搜索算法，用于在决策过程中评估不同选择的潜在结果，常用于需要策略规划的情境中；
API：应用程序编程接口，是一组允许不同软件系统之间通信、交换数据的规则；
SDK：软件开发工具包，旨在帮助开发者为特定平台或系统构建应用程序。
剪辑制作：甜食
本期主播：
孙海宁（微信 @_HaydenSun）
程曼祺小红书 @曼祺_火柴Q，即刻 @曼祺_火柴Q
☆《晚点聊 LateTalk》建立「播客听友群」啦！☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流，第一时间收听新节目。
这里有更多互动，更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号，备注：“晚点聊”，我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》，阅读更多商业、科技文章：

评价...

空空如也

小宇宙热门评论...

曼祺_MatchQ

3个月前北京

主流 AI Agent 产品主要把（多模态）大语言模型（LLM）当“大脑”，靠一个或几个 LLM 编排工作、调用工具。但Pokee.ai 创始人朱哲清（Bill），认为 LLM 只是 Agent 理解人类需求、向人类递交产出的“前端”，后端决策、完成任务则可以靠用强化学习方法训练的、不依赖自然语言的模型完成。这期我们和 Bill 聊了他不一样的 Agent 造法。准确说，Pokee产品也不是直接to使用者的 Agent，而是to D 的造 Agent 的工具。 Bill 也分享了他过去十几年，从在斯坦福读博和Meta期间的 RL 研发故事，他是怎么度过“冷板凳”阶段的，为什么没转去 LLM。本周，这个在北美的4人小团队的产品即将发布。到时可以看 RL 做 Agent 的初期效果。（有产品信息后，我们会更新在评论区～

桃奈小安

3个月前广东

沙发

我留着陪你

3个月前上海

大语言模型用于理解内容和调用工具，或许确实有点杀鸡用牛刀，为了让人类能理解而放弃了效率了

我留着陪你

3个月前上海

36:34 browser use太慢了。未来没有访问互联网的需求，只有构建高质量数据库的需求。任务由agent在后端完成，所有供人类消费的前端ui都即时渲染出来。

豆Jayce

3个月前江苏

板凳

Deemo2025

3个月前北京

mark

骁霖

3个月前北京

感谢解释英文的提示

HD40358x

3个月前陕西

个人认为是否需要确认是一个长期实践和经验化的过程，初期的确认是有必要的，就像你逐渐信任一个陌生司机一样。对于ai的信任会在大量的验证下逐渐固化下来

爱西姆柏瑞

3个月前河南

Google最近提出的A2A确实是未来，我相信“智能体”的未来肯定不是聊天窗口，本期嘉宾所说的未来非常接近我想象中的“智能体”，等什么时候可靠到不需要人类审核，未来就来了

靓宇Jingyu

3个月前上海

第三个叫什么

旭坤

3个月前浙江

1. api doc导致的context长度问题，是可以finetune到模型的0-shot来解决的，有个gorilla 工作。2.llm可以进行rl，端到端来解决翻译层和决策层，分开的意义只是提速？

cmw_swQi

3个月前江苏

22:49 我们的实验128个工具单个调用，没什么问题，幻觉还好，但是多步确实成功率会下降很多

耳朵折了

3个月前广东

对于GUI界面，个人认为会在未来的时间仍是不可替代的一部分，现在很多一些工作为了降低成本以及门槛，作为commercial的一部分，确实也都包装成为了GUI产品去销售。如果说，能够完全替代GUI, 在agent方面技术层面上确实未来可期，但仍然需要接受市场的挑战

cmw_swQi

3个月前江苏

36:36 你这个说法我熟，以前自动驾驶也说，如果路上都是自动驾驶车，会如何如何，但是实际上无论是机器人还是车，拟人是后来发生的事情，因为车，工具都是为人设计，同时，技术的渐进性就导致了这样的情况

小米魔女

3个月前上海

25:27 但RL之所以现在成功基础还是有LLM 这个不矛盾. 需要有先验能力

小卡小卡

3个月前广东

做算法的创业者严重低估了GUI的价值

HD869910e

3个月前北京

开源项目叫什么

哄哄_IOuG

3个月前上海

1:07:57 哈哈这演都不演了

哄哄_IOuG

3个月前上海

1）通用Agent 是否等于“专为 tool use 打造的具备长程规划能力和使用非LLM调用工具的模型” ，至少当下这个RL Agent 是解决了一部分关键问题，并不是全部 2） LLM Agent在工具调用上可能会中途调整，因为语言模型走一步看一步，RL Agent 遇到这种情况如何处理，智能体是否会反思并且指出新的调整方向

Erogos

3个月前北京

30:41 为啥不能给 llm 一个搜索框，让 llm 输入工具关键词自己找想要的工具呢？

ZikY_E5em

3个月前北京

这期的中英混掺更是顶级…（学术名词用英文能理解，日常口头禅也全是

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表