一堂「强化学习」大师课|对谈清华叉院助理教授吴翼

42章经

当 AI 预训练的 scaling law 开始放缓,强化学习 (RL) 接过接力棒,拉出了一条漂亮的第二曲线。 在当下的 Agent 热里,有 RL 能力的团队,也是最被看好和押注的。 但很多人对 RL 都没有一个足够清晰的理解,包括我自己。 所以这期我们请到了国内 RL 领域的专家、清华大学交叉信息研究院助理教授吴翼,来讲讲 RL 的原理到底是啥、RL+LLM 的路径是怎么发展起来的、目前存在哪些非共识、未来还会怎么演变等等(聊完感觉像上了一堂免费大师课)。 而且聊着聊着,我们发现,人生就是一个 RL 的过程,区别是 RL 有明确的奖励函数,但是人生没有。可能如吴翼教授所说,我们首先都要以一种「最大熵」的方式去主动和不确定的世界交互,才能找到自己的奖励函数,优化自己的人生曲线。 最后,吴翼教授的团队最近开源了一个 RL 框架 AReaL-boba,在 SOTA 7B 上跑出了 AIME24 61.9 的分数,也欢迎大家去 GitHub 关注。 【人类博物馆】 导游:曲凯,42章经创始人 32 号珍藏:吴翼,清华大学交叉信息研究院助理教授,前 OpenAI 研究员。 【时光机】 * 1:51 到底什么是 RL? * 4:25 人生就是一个强化学习的过程 * 6:22 RL 和 LLM 是怎么结合起来的? * 7:01 强强联手第一步:InstructGPT,实现指令遵从 * 10:07 过程中衍生出了 RLHF * 11:41「慢思考」的需求催生了 RL 的应用 * 16:10 为什么说 Anthropic RL 做得特别好? * 21:17 行业对 RL+LLM 的最优路径形成共识了吗? * 25:11 RL 起来之后,对 Agent 的影响是什么? * 32:11 Intelligence = LLM (理解) × RL (决策),二者缺一不可 * 34:14 Scaling law 的未来 * 34:33 Pretraining 的两个发展方向 * 36:43 RL 还处于早期,进入深水区后可能会走向分化 * 40:02 大模型团队的组织架构要如何设计? * 43:21 一个反常识:对 AI 来说,理解比生成更难,token 消耗更大 * 47:38 现在做 Agent 一定需要一个懂 RL 的人吗? * 49:32 为什么 RL 人才这么稀缺? * 56:10 RL 目前三大分支:泛化 (DeepSeek)、代码 (Anthropic)、Agent (OpenAI) * 58:55 框架对 RL 意味着什么? * 1:02:51 RL 在海内外进展还有明显差距 * 1:04:42 想做好 RL,基建≫数据>算法 * 1:06:05 研究 RL 收获的一些人生启发 【Reference】 * 吴翼的 PhD 毕业论文:On Building Generalizable Learning Agents * 吴翼获机器学习顶级会议 NIPS2016 最佳论文奖的论文: Value Iteration Network * 吴翼提到的他非常喜欢的有关 Diversity-Driven RL 的两篇论文:Iteratively Learn Diverse Strategies with State Distance Information、Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization * 吴翼团队和蚂蚁研究院开源的强化学习训练框架:AReaL-boba 【The gang that made this happen】 * 制作人:陈皮、Celia * 剪辑:陈皮 * Bgm:Mondo Bongo - Joe Strummer & The Mescaleros

72分钟
26k+
8个月前

文明·纹脉:瓷器上的汉字故事

文明·纹脉:瓷器纹饰三千年

陶瓷上的文字纹饰经历了漫长的发展历程,从新石器时代的符号到明清时期具有明确寓意的文字,都反映了不同历史时期的社会文化、审美情趣和人们的情感寄托。这些历史的演变对于当代审美、陶瓷餐具设计以及陶瓷经营都具有重要的启发意义。 对当代审美的启发意义: • 文字不仅仅是装饰,更是文化和情感的载体: 历史上的陶瓷文字纹饰不仅仅是为了美观,更承载着创作者和使用者的意图、情感、信仰和社会价值观。这启示当代审美在追求形式美的同时,也应注重作品的文化内涵和情感表达。 • 简约与繁复的和谐统一: 无论是汉代瓦当上劲健有力的单字,还是清康熙万寿尊上密集的万个寿字,都展现了文字作为装饰元素的不同表现方式。简约的文字可以突出其力量和内涵,繁复的文字排列也能形成独特的视觉冲击力。当代审美可以借鉴这种在简约与繁复之间寻求平衡的设计思路。 • 世俗化和生活情趣的体现: 宋代瓷枕上“众中少语,无事早归”的俚语,唐长沙窑上质朴的思念诗和文字游戏,都反映了当时社会的生活情趣和百姓的真实情感。这提醒当代审美可以更多地关注生活本身,从日常生活中汲取设计灵感,使作品更贴近大众。 • 传统文化与现代审美的结合: 明清时期出现的具有吉祥寓意的汉字装饰,以及对古代诗词、名篇的书写,都体现了对传统文化的传承和创新。当代审美可以将中国文字优美的造型和丰富的文化内涵与现代设计理念相结合,创造出既有传统韵味又不失现代感的作品。 当代设计师如何借鉴到日常的陶瓷餐具设计中: • 功能性与装饰性的统一: 东汉青釉印纹四系瓷罍上的“茶”字直接标明了器物的功能。当代餐具设计可以在不影响功能的前提下,巧妙地融入相关的文字元素,例如在茶杯上印制茶诗,在饭碗上设计与食物相关的吉语。 • 情感和故事的融入: 唐长沙窑直接在执壶上书写思念诗。当代设计师可以在餐具上引用具有美好寓意或能引发情感共鸣的诗句、短语或文字游戏,让餐具不仅仅是盛放食物的器皿,更成为情感交流和表达的媒介。 • 个性化定制和文化元素的体现: 元代瓷器上出现的商号、人名,以及具有地方特色的俗语,都体现了当时社会对个性化和地域文化的重视。当代设计师可以提供个性化定制服务,将具有个人意义的文字或代表地域文化的符号融入餐具设计中。 • 书法艺术的创新运用: 康熙时期洒蓝反白“怀素帖”笔筒将书法艺术巧妙地融入陶瓷装饰。当代设计师可以借鉴中国书法的 다양한 스타일和笔墨意趣,以现代的陶瓷工艺呈现,为餐具增添艺术性和文化品位。 • 文字与图案的巧妙结合: 明嘉靖青花“五谷丰灯”龙纹碗将文字与龙纹图案巧妙结合,表达了对丰收的期盼。当代设计师可以将文字作为图案的一部分,或者将图案融入文字的笔画之中,创造出更具艺术性和趣味性的视觉效果。 当代陶瓷企业家对当代陶瓷经营的借鉴和启发意义: • 挖掘产品的文化价值和故事性: 历史上的文字纹饰瓷器往往蕴含着丰富的文化内涵和历史故事。当代陶瓷企业家可以深入挖掘产品的文化背景,赋予产品更深层次的意义,并通过讲述产品背后的故事来吸引消费者,提升产品的附加值。 • 关注市场细分和个性化需求: 元代酒器上出现酒名、商号,以及宋代瓷枕上反映不同社会心态的文字,都表明了当时市场细分和个性化需求的出现。当代陶瓷企业家应关注不同消费群体的需求,推出具有针对性的、能够满足消费者个性化情感表达和文化认同的产品。 • 重视传统文化的创新传承和跨界合作: 明清时期对传统吉祥语和古代文学作品的运用,以及明永乐时期出现的异域文字装饰,都体现了对传统文化的传承和创新,以及对外来文化的吸收。当代陶瓷企业家可以与文化机构、艺术家、设计师等进行跨界合作,将传统文化元素与现代设计、工艺相结合,推出具有独特文化魅力的产品。 • 利用文字传递品牌理念和价值观: 长沙窑执壶上书写的“仁义礼智信”,以及道光墨彩戒烟歌杯,都体现了文字在传递道德伦理和警示劝诫方面的作用。当代陶瓷企业家可以通过在产品或包装上巧妙地使用文字,传递企业的品牌理念、社会责任和文化价值观,增强消费者的认同感。 • 关注产品的功能性和实用性: 东汉瓷罍上的“茶”字直接关联产品的功能。当代陶瓷企业家在追求文化和艺术价值的同时,也应注重产品的实用性和用户体验,使产品真正融入消费者的日常生活。 总而言之,陶瓷上的文字纹饰不仅是历史的印记,也为当代陶瓷的设计和经营提供了丰富的灵感。通过深入理解文字纹饰背后的文化意义和审美价值,当代设计师和企业家可以创造出更具文化内涵、情感价值和市场竞争力的陶瓷产品。

28分钟
99+
8个月前

33. 跑步是个心理练习场,我在这里追求进步,也操练失败。丨唠嗑马拉松(对话飞飞)

自然的然

🏃🏻‍♀️赛季如火如荼进行着🔥🔥🔥,朋友们跑的还开心吗? 从越野东海回来的我,盛情邀请了刚从高黎贡越野回来的飞飞,在3月零零碎碎的讨论了跑马/越野的思考。比如:你能接受被关门/退赛吗?参赛的原动力是啥?曾经厌赛过没? ...... 于是,我们共同梳理了一下近期的聊天记录。本期内容我们采用了【假设性问题】的方式,如果播客前的你有着类似/不一样的想法,欢迎在评论区分享~ ⏳时间线 1:59 问题1:假设,锡马10公里处崴脚,你会退赛,还是会降速跑完? * 10:00 会因为“一签难求”的稀缺性,而选择坚持吗? * 11:26 「放弃」的选项,相当于比赛的隐形强装(强制装备) * 12:21 相比于薅羊毛的老百姓,大众精英反而更如履薄冰? * 22:15 做好被关门的准备,是我的心理强装 * 25:24 配速慢了一分钟,真的那么令人崩溃吗? * 31:40 等待、蛰伏、耐心,是生活中的重要技能 * 37:35 越野东海,我在和去年的自己拍肩 * 41:34 我可以在跑步里追求成功,也可以操练失败,而不是说“我一定要赢”。 42:30 问题2:假如,有私兔带你358(第一次破四),和没私兔自己跑402。你更想要哪个? * 46:28 跑一场比赛,我希望我最想感谢的是自己。 * 51:53 问题2延展:如果「有人推你一把」的确能抵消爬大坡的巨大体能消耗,并能保你破4,你想不想要? * 53:30 如果一件事我「非做不可+不着急做」或「做不做都行」,我才真的愿意去做。 56:26 问题3:你会称/当做自己是运动员吗? * 1:01:41 问题3延展:你会称/当做自己是跑者吗? 1:02:50 问题4:参加马拉松、越野赛,到底为了啥? * 1:03:25 我是去凑热闹的运动媛吗? * 1:04:01 如果“热爱山野”,为什么休息日不跑山? * 1:07:13 我希望跑一场“人文马拉松”,体会不一样的城市、人和感受。 * 1:09:56 回看首场马拉松体验,我看到了我的初心 * 1:15:03 跑步进步会开心,因为这使我具备“享受赛道”的能力 * 1:20:02 越野赛:我的“百公里”初心 * 1:26:01 我希望和我喜欢的地方,多一些同框时间 1:36:05 问题5:两年半的比赛生涯,有厌赛过吗? 1:57:33 问题6:健康问题:自我否定、焦虑、急功近利、“病”急乱投医了吗? ...... 🎙聊天的人 Sasa,飞飞 🎧收听方式: * 小宇宙丨喜马拉雅丨苹果播客丨QQ音乐丨网易云音乐 ⭐️关于「自然的然」: 这是一个灵感记事本,是一档记录关于运动、友情、亲密关系的碎碎念和激情澎湃的话痨瞬间。 我是Yueran,我的朋友们喜欢称呼我Sasa。平时喜欢跑跑步,偶尔越个野。情绪账户充沛,心态余额时涨时落。我喜欢通过与朋友、爱人的聊天收获一些灵感,并将这些宝贵的瞬间记录下来。 欢迎你在评论区留言一起互动探讨~以看到这里。那么,欢迎常来坐坐或与我留言。我们一起谈谈跑步,聊聊生活中的碎碎念。 ⭐️联系方式: * 邮箱:[email protected] * 小红书:飒飒野 * 视频号:飒飒野sasayeah

122分钟
99+
8个月前

010. 30岁种下一座花园:我才发现,四季分明,竟如此可爱

向后一步

亲爱的朋友,你好,欢迎来到《向后一步》第十期。这一期我邀请到了冰玉,来分享她与她小院和花园的日常。 向外望去,可以望见波光粼粼的湖面,而不是高耸的玻璃房子。被一张“北京小大理”的照片吸引,2020年,冰玉租下了北京郊区的一座小院,开始了她在城市与郊区之间往返的五年。 春天到来时,月季像瀑布一样盛开,风轻轻吹过,整个墙面都像在轻轻跳着舞。被月季的浪漫吸引,冰玉踏入了园艺的世界。她的花园里有月季、郁金香、角堇花,一把躺椅,和四季的更迭。小院的一天普普通通,却快乐非凡。花园的四季分明,却如此可爱。养花的过程中有挫折、有汗水、有虫害,也让春天变得如此值得期待。 30岁种下一座花园,是一种什么样的体验?对于冰玉而言,是走入自己从未踏足的领域,是在生活中寻找新支点,是懂得欣赏四季更迭如此可爱,也是一步一步逐渐靠近真实的自己。 春天来了,是多么普通,多么令人期待啊! 冰玉会在她的公众号《樱桃炒包菜》(小红书同名)分享她的生活,感兴趣的朋友可以关注。 附赠一张小院的春天~ -本期概览- 01:03 2020年,与小院第一次相遇 04:37 小院逐渐成为我生活新的支点 08:07 靠近小院,也靠近真实的自己 12:49 投入土地,可以忘记许多烦扰 14:43 修建花园,是急不来的事情 19:52 一季花开后,耐心等待下一季 28:21 记一次养育郁金香的失败经历 34:48 每种花都有自己的习性,也有自己适合的环境 37:22 摇摇晃晃,度过小院的一天 39:59 承认没有进取心,我用了许多勇气 42:28 四季分明,竟如此可爱 46:24 说不出特别的时刻,每一刻都很好 -本期嘉宾- 冰玉 -背景音乐- 王菲:《归途有风》

50分钟
99+
8个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧