42章经 - 我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill - EarsOnMe

42章经
我是这样用 RL + LLM 做 Agent 的｜对谈 Pokee AI 创始人朱哲清 Bill

时长：

45分钟

播放：

2.33万

发布：

7个月前

主播...

曲凯

简介...

新年正式第一期，来点新东西。
大家都说 Agent 热，那 Agent 到底是啥、到底为啥热、到底咋做、到底长啥样？
大家都说 RL 是新方向，那 RL 到底是啥，和 LLM 的关系是什么，又能怎么和 Agent 结合？
这期我们就请到了在 Meta 工作了七年的应用强化学习组负责人朱哲清 Bill，讲一讲他是怎么用一种很新的技术路线来做一种很新的 Agent，并且在电商等领域是如何落地的。
最后，我们的 AI 私董会也在持续报名中，目前已经聚集了一批市场上最好的 AI 创始人，欢迎点击链接报名（里面也有目前已加入的成员名单，可点击查看）
【人类博物馆】
导游：曲凯，42章经创始人
30 号珍藏：朱哲清 Bill，Pokee AI 创始人兼 CEO，此前 7 年在 Meta AI 做应用强化学习组负责人，并攻读了斯坦福大学强化学习专业博士学位
【时光机】
Part1 强化学习
* 3:06 我们思考方式已经全面 RL 化 —— from OpenAI 研究员
* 4:36 Transformer 和 RL 到底是什么关系？又要如何结合？
* 10:15 RL 解答的是平行宇宙问题
* 12:35 RL+LLM，就是公认最好的技术路线吗？
* 14:02 RL 的算法原理类似于「多巴胺刺激」
* 14:42 在无法清晰定义 Reward 的场景下，RL 还好用吗？
* 15:12 RL 最强的三个能力
Part2 给 Agent 用上强化学习
* 18:42 为什么直接用 LLM 做不出规划型 Agent？
* 20:17 一个有效的 Agent 架构：RL 做核心，LLM 做翻译
* 23:35 我们做出了一个电商领域的通用型 Agent

* 24:39 体验相当于一个资深的网站负责人
* 26:05 原理是让 Agent 通过 self-play 学会使用上千个底层 API
* 29:43 Agent 当前市场格局:

* 29:52 Coding Agent 是皇冠上的明珠
* 30:26 Vertical Agent 遍地开花，但准确性仍是大难题
* 30:46 通用型 Agent 尚不存在，但 RL 或可迎战
* 31:17 万物皆可 call API
* 34:07 一个具体的应用示例：Agent 是怎么帮商家省钱提效的？
* 39:08 训练成本和推理成本都低得令人发指...
* 40:33 先定一个小目标：做各行各业的 API 杀手
* 42:57 对 25 年硅谷 AI 市场的观察和预判

* 43:11 垂类 Agent 是绝对的热点赛道，融资并不困难
* 45:29 25 年是 Agent 真正落地的一年
【The gang that made this happen】
* 制作人：陈皮、Celia
* 剪辑：陈皮
* Bgm：Mondo Bongo - Joe Strummer & The Mescalero

评价...

空空如也

小宇宙热门评论...

0xaSam

7个月前浙江

建议以后可以把一些专家们的黑话或者英文简写，名词解释下放在介绍里。如果不是想让更多人都能听懂那就算了

rickzhai

7个月前英国

听得出来技术背景真的很强。曲凯的举例和追问能力很不错，要不很多没技术背景的人肯定听的一头雾水。举个不恰当的例子，这个嘉宾就像是llm懂很多东西，但是需要曲凯做rlhf引导出来让大家听懂。

曹虎-科特勒

7个月前广东

提到的美剧是’man in the high castle ‘(高堡奇人），有科幻小说，很好看

小米魔女

7个月前未知

每一次听完都收获满满，虽然不在行业内，对自己学习AI很有帮助. 感谢分享

石建_OEte

7个月前浙江

35:46 电商圣诞节例子，第一步打折，打几折呢？现在不同商家，根据品类有个人经验，如按照 gm 目标、成本、kpi 要求等，先 excel 算，再一群人讨论，老板拍板定，线下找供应商沟通供货再调整等。这些人工经验，怎么通过 RL 去探索呢？这些动作都是没有被数字化的？求教

产品经理魏同学

7个月前北京

看标题就有马上想听完的冲动👍

SherryH高绩效教练

7个月前中国台湾

感谢朱哲清您的分享,非常务实，很有启发

HD47487z

6个月前广东

这期播客反复听了两遍，听完依然很兴奋，主要来自几个点： 1. LLM的理解：LLM作为人类和计算机之间的翻译桥梁和知识库，RL做行为编排，这种LLM的相对定位此前没想过，但是一听到就感觉符合直觉，有点像人即使有经验，在遇到一些特定状况的时候，最好还是去实践试错而不是基于经验脑测一番。 2. 对agent的判断：嘉宾目前切入点是如何基于现有业务解决问题，因此api越完善的领域这事情越容易推进，'信息化-数字化-智能化' 这一行业生产力发展的方式是没法越级的，可能我是程序员，我好期待嘉宾描绘的未来。 3.可见的成果：同时我副业也在用shopify做着不太成功的个卖，听到嘉宾说的把agent用在shopify上可达到的效果很是震撼，站内优化一直是头疼的事情，直接决定订单转化效果，把这事的成本压缩成我只需要对接一个agent对过去的站内维护太降维打击。 4.在这些之上，模式可跨行业复制，训练成本极低，能跑CPU上。

RookieStar

7个月前上海

13:24 这里的英语术语是啥，听不清

总有一天会成功

7个月前江苏

小白有的听不懂…在哪里看文稿呀

sanbai_

7个月前陕西

听完了产生了一些疑问 (仅仅是我个人的疑问，并非质疑嘉宾的技术路线或者专业背景)，想和大家探讨： 1. 啥是RL模型？如果指的是模型训练用了RL，那是不是所有的模型都可以说是 SGD 模型？ 2. 这个 RL 和 agent 怎么结合的？有一个经过 RL 训练的模型控制 agent，agent 再去调用 API？这个模型是静态的吗？推理过程有 RL 吗？