my favorite
aboycoder
1天前
创建于 1天前
暂无描述
0
人关注
全部(4)

EP 62. Google Deepmind 与LLM研究员深度解读OpenAI o1 及LLM+强化学习新范式

OnBoard!

你们期待已久的最硬核干货的OpenAI o1模型技术解读来了!上个月最值得关注的事件,或许就是9月12号OpenAI o1模型的发布了,大家对这个新的模型翘首以待许久,OpenAI CEO Sam Altman 也称之为新范式的开始。经过强化学习(Reinforcement Learning)并结合Chain of thoughts 思维链技术,o1在处理物理、数学、编程等复杂问题时,甚至和该领域的博士生水平不相上下。OnBoard! 的嘉宾,不会让你失望! Hello World, who is OnBoard!? 强化学习如何给大语言模型带来新的逻辑推理能力这?这种能力的来源、实现方式和未来潜力又是怎样的?o1带来的“新范式”会对行业有怎样的影响? 这次的嘉宾都是有实际训练LLM经验的一线研究员。这场三个多小时的解读,相信会给你不一样的视角!其中两位就来自 RL 绝对高地的 Google, 也是AlphaGo, alphafold, alphageometry 等一系列世界领先的RL工作的发源地。他们都分别在RL和MCTS(蒙特卡洛树搜索)领域有长期的研究和实践经验。另一位嘉宾则是在互联网大厂从LLM预训练到RLHF都有一手经验。中美视角的综合,碰撞出很多火花。这个嘉宾阵容对o1的猜想和解读,相信会让你直呼过瘾。 这次的探讨会涉及很多技术细节,嘉宾长期的海外工作学习,难免穿插英文,不接受抱怨。Enjoy! PS 本期录制时间是2024年9月27日 嘉宾介绍 Kimi Kong,Research engineer @Google deepmind, 他在 Stanford 读书期间就接触强化学习,从机器人到现在的大语言模型,对强化学习的理论和使用的沿革有非常系统的理解。 Eric Li (返场嘉宾!),Research scientist @Google Cloud, PhD @Caltech。大家都猜测 o1 将蒙特卡洛树搜索 (MCTS) 应用到了LLM,是提升逻辑推理能力的重要方式之一。Eric 就发表了多篇LLM和MCTS结合的论文,绝对的专家。 苏辉,前微信AI研究员,现国内一线互联网公司大模型负责人。 Cohost: Cage,原字节的数据科学家,现拾像科技研究员,公众号“海外独角兽”撰稿人 OnBoard! 主持:Monica:美元VC投资人,前 AWS 硅谷团队+ AI 创业公司打工人,公众号M小姐研习录 (ID: MissMStudy) 主理人 | 即刻:莫妮卡同学 我们都聊了什么 02:36 嘉宾自我介绍,MCTS 科普,为什么对LLM+RL新范式很重要; Cursor 为何值得关注,Physics in LLM from Allen Zhu, 语言对推理能力的价值 20:25 对o1发布有什么印象深刻的地方,数据的重要性和难点 40:16 如何拆解o1能力提升的来源?如何重新训练一个o1? 56:10 为什么复杂的o1 却解决不好简单的数学或常识问题? 60:16 o1 用于 tool use 的任务,可能有什么挑战? 对agent 产品有什么影响? 66:46 如何看待agent 数据集难收集的问题? 68:38 什么是 Chain of Thoughts (CoT)和MCTS? 对o1的作用跟以前CoT做法有什么不一样?MCTS 在LLM推理中可能有什么作用? 83:07 什么是强化学习(RL)?在LLM中应用RL是怎样的演进过程? 89:35 RL和self play 其他领域,比如机器人,有怎样的应用?跟在LLM的应用有何异同? 93:45 RL, CoT, self-play 之间是怎样的关系? 真的可以无上限提升LLM推理能力吗? 106:56 o1 有可能是单一模型还是 multi-agent system? 119:11 LLM和游戏有什么相互影响?为什么玩游戏的能力对LLM 很值得关注?游戏数据对LLM训练有什么价值? 126:54 Google 很早就开始 RL 相关研究,为什么 OpenAI o1先出来了? 133:16 o1 新范式的出现,对于追赶者来说意味着什么?更容易还是更难? 141:43 要追赶 OpenAI o1, 最容易被低估和高估的是什么? 143:48 对未来的展望:未来1年和3年,预期AI领域会发生什么? 我们推荐的内容 * OpenAI: Scaling Laws for Reward Model Overoptimization * Cursor * Allen Zhu: Physics of Language Models * Language is primarily a tool for communication rather than thought * OpenAI: Improving mathematical reasoning with process supervision * InstructGPT * OpenAI PRM 800k 数据集 * Let's Verify Step by Step * Anthropic: Constitutional AI: Harmlessness from AI Feedback * RLAIF * OpenAI Hyung Won Chung: "Don't teach. Incentivize." * Toolformer * Chain of thoughts * DDPM * DPO * PPO * Sergey Levine: Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actorT Haarn * AlphaGo * AlphaGo-Zero * AlphaZero * MADDPG (Multi-Agent Deep Deterministic Policy Gradient (MADDPG), from OpenAI paper "Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments" * AlphaZero-Like Tree-Search can Guide Large Language Model Decoding and Training * Reasoning with Language Model is Planning with World Model * Chain of Thought Empowers Transformers to Solve Inherently Serial Problems 参考文章 * openai.com * openai.com * OpenAI’s Strawberry and inference scaling laws * 海外独角兽:LLM的范式转移:RL带来新的 Scaling Law * 张俊林:Reverse-o1:OpenAI o1原理逆向工程图解 欢迎关注M小姐的微信公众号,了解更多中美软件、AI与创业投资的干货内容! M小姐研习录 (ID: MissMStudy) 欢迎在评论区留下你的思考,与听友们互动。喜欢 OnBoard! 的话,也可以点击打赏,请我们喝一杯咖啡!如果你用 Apple Podcasts 收听,也请给我们一个五星好评,这对我们非常重要。 最后!快来加入Onboard!听友群,结识到高质量的听友们,我们还会组织线下主题聚会,开放实时旁听播客录制,嘉宾互动等新的尝试。添加任意一位小助手微信,onboard666, 或者 Nine_tunes,小助手会拉你进群。期待你来!

162分钟
21k+
1年前
推荐语

暂无推荐语

1天前

S3E03|AI 在颠覆制药行业吗?

Pfizer Express

离「万药皆可AI」,我们还有多远?从1970 年代 Christian Boehmer Anfinsen 提出安芬森法则,奠定了蛋白质结构预测的计算基础,到 AlphaFold 2.0 惊艳世人,打破生命科学领域的研究限制,短短不过半个世纪。 如今几乎所有的制药巨头都尝试通过成立 AI 实验室、与 AI 制药公司合作、甚至是并购收购的方式,积极布局相关赛道。根据 BiopharmaTrend 的统计,截止2022年年初,全球的AI制药总计融资 24 亿美元,其中美国与中国占八成以上。「Nature」也在今年四月发表文章,总结 AlphaFold 和 AI 制药为生命科学领域带来的影响。 本期节目,Nina 和刘灿邀请辉瑞研发部的国才,共同探讨 AI 正在如何改变制药行业。上个世纪就已经出现的计算机辅助 CADD 与现在大热的 AI 制药有什么区别?AI 如何缩短药物研发的流程?为什么制药行业是反摩尔定律的行业?结构生物学家、制药学家会因为 AI 而失业吗? 风险提示:节目内容仅作学术讨论,嘉宾推荐读物及学术分享仅为嘉宾个人观点。 本期人物 Nina,辉瑞雇主品牌和校园招聘负责人 国才,辉瑞研发部 药物科学肿瘤和免疫负责人 刘灿,「科技早知道」监制 主要话题 [01:09] 为什么 AI 制药要从AlphaFold 谈起?各大制药公司已经在做 lab for tomorrow 又是? [07:42] 各大制药公司已经在做lab for tomorrow?AI 目前主要集中在临床前? [15:32] 蛋白质预测为什么难?新靶点会更容易被发现吗? [24:51] AI 能代替人类设计好的药物分子?新药研发中,数据质量与数量其实大于算法? [35:39] AI 制药为什么不能说是在重新定义制药领域? 延伸阅读 * 国才推荐的 Derek Lowe 在Science 的专栏:IN THE PIPELINE * Nature 对 AlphaFold 以及 AI 制药进展的总结:What's Next for AlphaFold and the AI Protein-Folding Revolution * Deepmind 团队在 Nature 上的发表的关于 AlphaFold 2 的 论文:Highly accurate protein structure prediction with AlphaFold * CADD(Computer Aided Drug Design):中文译为计算机辅助制药,指将计算机技术应用于靶点发现、先导化合物的设计与优化等新药研发流程;与之相对应的是 AI辅助制药(AI Drug Discovery & Design, AIDD)。 * 蛋白质折叠(Protein Folding):指蛋白质获得其功能性结构和构象的过程,蛋白质没有正确折叠时会导致疾病出现。诺奖得主克里斯蒂安·伯默尔·安芬森(Christian Boehmer Anfinsen)在上个世纪 60 - 70 年代提出,蛋白质的一级结构决定它的三级结构,而蛋白质的立体结构与其功能相关,此说法后被称为安芬森法则;基于该法则,人类可以通过梳理氨基酸序列预测出蛋白质结构,是如今预测蛋白质结构的计算基础。 幕后制作 监制:刘灿 后期:Luke,敬文 运营:Yao,Yongxin,Bella,Fiona 设计:Cyrus 关于我们 声动活泼的宗旨是「用声音碰撞世界」,致力于为人们提供源源不断的思考养料。 * 我们还有这些播客:声东击西、声动早咖啡、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞 * 欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们 * 期待你给我们写邮件,邮箱地址是:[email protected] * 如果你喜欢我们的节目,欢迎 打赏支持或把我们的节目推荐给一两位朋友

43分钟
2k+
3年前
推荐语

暂无推荐语

1天前

从 AlphaFold 到 RNA 靶点预测,AI 如何重塑新药研发的未来? | 深科技系列 S9E34

What's Next|科技早知道

2024 年的诺贝尔化学奖是颁给了三位在蛋白质结构预测和蛋白质设计领域作出开创性贡献的科学家。这标志着 AI 已经成为生命科学的核心工具 ,正在改变我们理解生命的方式和重塑药物研发的未来。 我们今天的嘉宾是深圳湾实验室的周耀旗教授,他是这场变革的亲历者和推动者之一。他最初在学术界专注于蛋白质结构预测,后来他敏锐地意识到 RNA 领域的潜力与挑战,将研究方向转向 RNA 结构预测。现在他又走上创业之路,带领团队开发 以 RNA 为靶点的小分子药物,探索如何将基础研究真正转化为新的疗法。今天的节目我们聊一聊作为蛋白质结构预测工具的 AlphaFold3,它的突破与局限在哪里?RNA为什么是新一代药物的重要靶点?以及 AI 在新药研发中的作用究竟是什么? 本期人物 周耀旗,深圳湾实验室资深研究员,砺博生物科学创始人 Yaxian,「科技早知道」主播 主要话题 [02:42] 为什么蛋白质结构如此重要?解析蛋白结构是理解生命机器的关键 [05:47] 蛋白质结构预测简史(超硬核):基于模板 --> 碎片拼接 --> 二面角+距离预测 [14:26] 「1+2=3」:AlphaFold 革命性飞跃的背后 [17:40] 结构生物学家会不会被替代?聊聊 AlphaFold 还做不了的事 [23:26] RNA 结构预测为何更难?仅4个碱基,结构不稳定,已知数据稀缺 [29:24] 蛋白质只是「提线木偶」,RNA 才是「操纵者」 [31:56] 从靶向蛋白到靶向 RNA -- HIV蛋白酶抑制剂的成功和 KRAS 蛋白的「光滑锁眼」的难题 [35:49] 靶向 RNA 药物的里程碑:首个靶向 RNA 的小分子药利司扑兰(Risdiplam) [38:50] 在缺乏结构数据的情况下,如何开发靶向 RNA 的药物? [43:06] AI 在新药研发中的真实作用:是加速器,而非革命 [45:39] AI for Science:摆脱数据依赖,回归物理,寻找分子世界的「牛顿定律」 延伸阅读 AlphaFold 由谷歌 DeepMind 开发的人工智能程序,AlphaFold2 在精准预测蛋白质三维结构方面取得革命性突破而闻名。AlphaFold3 将其能力扩展到了 RNA、DNA 等更多分子。 CASP (Critical Assessment of protein Structure Prediction) 国际蛋白质结构预测竞赛,每两年举办一次,是评估和检验全球结构预测方法水平的「奥林匹克」 KRAS 一种重要的信号蛋白,其基因突变是多种癌症(如胰腺癌、肺癌)的关键驱动因素。由于其蛋白质表面光滑,缺乏明显的结合位点,长期以来被认为是「不可成药」的靶点。 SMN 蛋白 (Survival of Motor Neuron protein) 即运动神经元存活蛋白,该蛋白的缺失会导致 脊髓性肌萎缩症 (SMA)。全球首个靶向 RNA 的药物就是通过调控 SMN 的 RNA 来提高其蛋白水平。 PCC (Pre-clinical Candidate) 即临床前候选化合物,指在早期发现阶段后,被选定进入正式的临床前研究(如动物安全性、药代动力学试验)的药物分子 幕后制作 监制:Yaxian 后期:迪卡 运营:George 设计:饭团 商业合作 声动活泼商业化小队,点击链接直达声动商务会客厅(https://sourl.cn/9h28kj ),也可发送邮件至 [email protected] 联系我们。 加入声动活泼 声动活泼目前开放商务合作实习生、社群运营实习生和 BD 经理等职位,详情点击招聘入口详情点击招聘入口 关于声动活泼 「用声音碰撞世界」,声动活泼致力于为人们提供源源不断的思考养料。 我们还有这些播客:声动早咖啡、声东击西、吃喝玩乐了不起、反潮流俱乐部、泡腾 VC、商业WHY酱、跳进兔子洞 、不止金钱 欢迎在即刻、微博等社交媒体上与我们互动,搜索 声动活泼 即可找到我们。 期待你给我们写邮件,邮箱地址是:[email protected] [声小音] 欢迎扫码添加声小音,在节目之外和我们保持联系。 Special Guest: 周耀旗.

49分钟
10k+
1个月前
推荐语

暂无推荐语

1天前

DeepMind核心成员约翰・詹珀:AlphaFold 如何用AI破解蛋白质折叠难题?

野格知识贩子

播客Show Notes ​​本期主题​​ AlphaFold如何用AI破解蛋白质折叠难题?——约翰·詹珀带你看AI for Science的现在与未来 ​​核心嘉宾​​ 约翰·詹珀(John Jumper):AI for Science领域顶尖科学家,谷歌DeepMind核心成员,AlphaFold关键开发者。曾跨界物理学、计算生物学、生物物理学等领域,始终以"用AI加速科学发现"为目标。 ​​内容概览​​ ​​一、从物理学家到AI科学家:约翰·詹珀的跨界之路​​ * 职业转折:从物理学博士退学,进入计算生物学公司,发现"用技术解决实际问题(如药物研发)"的价值; * 关键转型:因缺乏计算资源,转向统计学与机器学习(早期称"统计物理学"),后加入DeepMind,结合顶尖资源与团队推动科学突破; * 信念:工具的终极意义是"让科学家实现更多发现"——AlphaFold已被引用3.5万次,助力疫苗、药物开发等领域,正是这一信念的印证。 ​​二、蛋白质折叠:为什么它是"生物学世纪难题"?​​ * 蛋白质的核心作用:人体约2万种蛋白质是"纳米机器",负责细胞几乎所有功能(如运动、催化反应),其功能由三维结构决定; * 折叠的关键:DNA指导蛋白质"线性组装"后,会自发折叠成三维结构——理解这一结构才能预测疾病、开发药物(药物常通过阻断蛋白质功能起效); * 实验测定的痛点:需让蛋白质形成晶体(可能耗时1年以上,失败率极高),再用X射线解析,过程耗时1-2年、花费约10万美元; 数据鸿沟:已知蛋白质结构仅20万(年增1.2万),但蛋白质序列已发现数十亿,增速是结构的3000倍。 ​​三、AlphaFold的诞生:AI如何破解这一难题?​​ * 核心目标:从蛋白质序列(线性指令)直接预测三维结构,填补"序列-结构"数据鸿沟; * 三大核心支撑(数据、计算、研究):数据:基于公开的20万蛋白质结构(来自蛋白质数据库PDB),"人人都能获取"; 计算:最终模型用128个TPU V3核心运行两周(非大规模语言模型级别,属学术可及范围); 研究(最关键):小团队提出全新机器学习方法,将Transformer思想与实验、"中等规模思想"结合,而非单一技术突破(如AlphaFold 2用1%数据就能超越前代SOTA系统); * 验证:通过CASP盲测(预测未发表结构),误差仅为其他团队的1/3,证明真实有效性。 ​​四、AlphaFold的"破圈":从技术突破到改变科学​​ * 开放性是关键:代码开源+预测数据库(从30万扩展到2亿,覆盖已测序生物蛋白质); 信任建立:数据库让普通生物学家直接对比"预测与未发表结构",通过"证据的社会性"口耳相传; * 实际影响:加速实验:帮科学家节省数月甚至数年时间(如解决"一年无法纯化的蛋白质"预测); 催生新发现:《科学》杂志核孔复合体特刊3/4论文依赖它,助力靶向药物递送(如小鼠大脑细胞精准注射)、受精机制研究等; 涌现新能力:用户意外发现其可预测蛋白质相互作用("蛋白质提示工程")。 ​​五、未来:AI for Science会有多"通用"?​​ * 核心逻辑:从零散数据(如蛋白质结构)训练通用模型,理解规律后填补空白,成为"实验家的放大器"; * 展望:AlphaFold是"基础模型"的开端,未来AI for Science不会局限于狭窄领域,将发展为广泛系统,持续解锁更多科学发现。 ​​关键金句​​ 1. "工具的意义不是替代科学家,而是让他们能做我永远做不到的研究。" 2. "AI的突破很少来自单一'革命性思想',更多是'中等规模思想'的累积。" 3. "科学的进步不仅需要技术,更需要让技术'被信任、被使用'的开放性。" ​​适合听众​​ 对AI、生物学、科学创新感兴趣者;关注"技术如何改变科研"的研究者、学生;想了解AlphaFold背后故事的科普爱好者。

9分钟
99+
4个月前
推荐语

暂无推荐语

1天前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧