
时长:
72分钟
播放:
2.49万
发布:
4个月前
主播...
简介...
当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。
在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。
但很多人对 RL 都没有一个足够清晰的理解,包括我自己。
所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。
而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。
最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。
【人类博物馆】
导游:曲凯,42章经创始人
32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。
【时光机】
* 1:51 到底什么是 RL?
* 4:25 人生就是一个强化学习的过程
* 6:22 RL 和 LLM 是怎么结合起来的?
* 7:01 强强联手第一步:InstructGPT,实现指令遵从
* 10:07 过程中衍生出了 RLHF
* 11:41「慢思考」的需求催生了 RL 的应用
* 16:10 为什么说 Anthropic RL 做得特别好?
* 21:17 行业对 RL+LLM 的最优路径形成共识了吗?
* 25:11 RL 起来之后,对 Agent 的影响是什么?
* 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可
* 34:14 Scaling law 的未来
* 34:33 Pretraining 的两个发展方向
* 36:43 RL 还处于早期,进入深水区后可能会走向分化
* 40:02 大模型团队的组织架构要如何设计?
* 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大
* 47:38 现在做 Agent 一定需要一个懂 RL 的人吗?
* 49:32 为什么 RL 人才这么稀缺?
* 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
* 58:55 框架对 RL 意味着什么?
* 1:02:51 RL 在海内外进展还有明显差距
* 1:04:42 想做好 RL,基建≫数据>算法
* 1:06:05 研究 RL 收获的一些人生启发
【Reference】
* 吴翼的 PhD 毕业论文:On Building Generalizable Learning Agents
* 吴翼获机器学习顶级会议 NIPS2016 最佳论文奖的论文: Value Iteration Network
* 吴翼提到的他非常喜欢的有关 Diversity-Driven RL 的两篇论文:Iteratively Learn Diverse Strategies with State Distance Information、Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization
* 吴翼团队和蚂蚁研究院开源的强化学习训练框架:AReaL-boba
【The gang that made this happen】
* 制作人:陈皮、Celia
* 剪辑:陈皮
* Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。
但很多人对 RL 都没有一个足够清晰的理解,包括我自己。
所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。
而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。
最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。
【人类博物馆】
导游:曲凯,42章经创始人
32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。
【时光机】
* 1:51 到底什么是 RL?
* 4:25 人生就是一个强化学习的过程
* 6:22 RL 和 LLM 是怎么结合起来的?
* 7:01 强强联手第一步:InstructGPT,实现指令遵从
* 10:07 过程中衍生出了 RLHF
* 11:41「慢思考」的需求催生了 RL 的应用
* 16:10 为什么说 Anthropic RL 做得特别好?
* 21:17 行业对 RL+LLM 的最优路径形成共识了吗?
* 25:11 RL 起来之后,对 Agent 的影响是什么?
* 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可
* 34:14 Scaling law 的未来
* 34:33 Pretraining 的两个发展方向
* 36:43 RL 还处于早期,进入深水区后可能会走向分化
* 40:02 大模型团队的组织架构要如何设计?
* 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大
* 47:38 现在做 Agent 一定需要一个懂 RL 的人吗?
* 49:32 为什么 RL 人才这么稀缺?
* 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI)
* 58:55 框架对 RL 意味着什么?
* 1:02:51 RL 在海内外进展还有明显差距
* 1:04:42 想做好 RL,基建≫数据>算法
* 1:06:05 研究 RL 收获的一些人生启发
【Reference】
* 吴翼的 PhD 毕业论文:On Building Generalizable Learning Agents
* 吴翼获机器学习顶级会议 NIPS2016 最佳论文奖的论文: Value Iteration Network
* 吴翼提到的他非常喜欢的有关 Diversity-Driven RL 的两篇论文:Iteratively Learn Diverse Strategies with State Distance Information、Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization
* 吴翼团队和蚂蚁研究院开源的强化学习训练框架:AReaL-boba
【The gang that made this happen】
* 制作人:陈皮、Celia
* 剪辑:陈皮
* Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
评价...
空空如也
小宇宙热门评论...

啊猴啊
4个月前
北京
24
06:32 人生就是一场强化学习,只不过需要持续探索奖励函数是什么。
不劳而祸
4个月前
天津
19
两位的声音相似度有点高😂有几段抢在一起说话时分不清是谁说的了都

AllenTing
4个月前
广东
15
很多增量信息,又很深入浅出,以后可以多一些类似的访谈

夏天419
4个月前
马来西亚
15
1:01:30 嘉宾好评,期待返场👍
He Elon
4个月前
广东
13
06:13 强化学习的前提是你知道奖励函数是什么,而人生的差别是你不知道这个奖励函数是什么,大部分时间都是在持续探索奖励函数是什么,可能你以为你在朝着奖励函数去优化,但真正到达了发现不是这样

brainzhang
4个月前
山东
11
太棒了。通俗易懂的科普。一遍不过瘾,要再听一遍
明明是我_qz7b
4个月前
广东
6
播客这么硬核的吗?点赞(òωó)👍
Faith要加油
4个月前
未知
6
真大师课!!!值得反复听!

orangeai
4个月前
北京
5
评论太长放不下了,写了一篇文章 https://mp.weixin.qq.com/s/MauX2_WC1Q9iLE4yNYASeQ

kingking8880
4个月前
北京
5
1:12:46 这集真的超赞,讲得好清楚,而且嘉宾讲得好有趣,都想当他学生了🧑🎓申请返场

搞钱搞男人女士
4个月前
湖北
3
有才算了 怎么声音也这么好听 我天 不好意思 跑题了

夏天419
4个月前
马来西亚
2
1:01:59 虽然不能完全听懂,但是就爱听这么一本正经的知识😉
HD999361z
4个月前
广东
2
太好了!是吴老师!没听先来打call

RookieStar
4个月前
北京
2
05:45 人生是一场经历和体验,人追求自我迭代与进化,但往往是原地打转。感觉只有认知水平高的人才有可能去持续探索奖励函数,但它也会随着人的经历变化而发生阶段性变化。奖励函数背后是一套有点逆人性的反馈系统,贵在执行与坚持,但绝大多数人做不到,这点机器比人强多了。曲老师提了一个非常灵魂拷问的问题,发生深思👍
Treewan
4个月前
广东
2
模型变聪明的发现是先写字,再输出结果,实现slow thinking。writing也是人类梳理思维和思考的一种方式
朱缇儿
4个月前
北京
2
主持人问题问的也很好,都问到点上了!

小学生在学习
4个月前
上海
1
真正深入理解问题的人 讨论起来就是这么深入浅出 又一针见血 讲的太好了

小邬的小邬
4个月前
上海
1
播客中提到对于模型来说要“理解”一个东西更难一些,在我看来,“理解”的本质是:像什么但不是什么…不像什么但是什么。
这对于计算机/算法来说很难?为什么?
HD772684e
4个月前
浙江
1
大模型之前的强化学习为什么没有办法应用到agent和机器人:强化学习是决策能力,但理解能力还是要靠预训练。
yan_tLpW
4个月前
江苏
1
这个有文字稿吗