Album
时长:
34分钟
播放:
830
发布:
5个月前
主播...
简介...
https://xiaoyuzhoufm.com

📝 本期播客简介


本期我们克隆了:⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect


本期《Latent Space》节目,主持人Alessio Fanelli (Decibel联合创始人兼CTO)和SWYX (SmallAI创始人)邀请到Prime Intellect的Will Brown,共同深入探讨Anthropic最新发布的Claude 3.5 Sonnet及Opus模型。节目聚焦于新模型在推理能力、工具调用、“思维扩展”功能上的进化,以及从强调纯推理到更注重智能体实用能力的转变。Will Brown分享了关于模型奖励机制滥用(Reward Hacking)、AI安全测试争议(如铀材料搜索的例子)、以及通过强化学习(特别是GRPO)提升模型工具使用的主动性和有效性的见解。讨论还延伸到大语言模型权限管理、评估体系的未来以及学术研究在AI发展中的关键作用。


感谢minimax提供的语音克隆技术支持,我们采用了minimax的speech-02模型进行声音复刻。通过minimax目前业界领先的语音克隆技术,我们能够精准还原原播客主持人和嘉宾的声音特征、情感色彩和语调变化,让您在聆听中文内容的同时,依然能感受到原声音的独特魅力。



👨‍⚕️ 本期嘉宾


Will Brown,来自Prime Intellect。AI研究者,在强化学习(RL)、AI智能体、模型评估和代码生成领域有深入研究。近期参与发表了关于GRPO(梯度反向策略优化)的研究成果,致力于提升AI模型在复杂任务(如多轮工具调用)中的表现和可靠性。



🌟 精彩内容


Claude 3.5特性解析: 深入讨论Claude 3.5 Sonnet与Opus在推理、工具调用和“思维扩展”功能上的最新进展。


智能体与推理的平衡: 从追求纯推理高分到构建实用AI智能体的行业趋势转变,强调工具调用和多轮对话等实用功能。


工具使用与奖励机制: 探讨AI模型如何学习主动使用工具,以及如何通过强化学习(如GRPO)克服奖励机制滥用(Reward Hacking)等问题,例如模型假装使用工具或过度完成任务。


AI安全与伦理争议: 剖析Claude模型安全测试中的争议案例(如“暗网搜铀材料”的段子),讨论AI权限管理、模型行为的解读及其社会责任。


“思维预算”与成本控制: 讨论模型推理的“思考预算”概念,以及开发者如何在模型输出质量、成本和延迟间进行权衡。


强化学习的挑战与前沿: Will Brown分享其团队在GRPO及多轮强化学习方面的研究,以及LLM作为评估者(Referee)判断回答质量和工具使用有效性的潜力。


AI评估体系的未来: 探讨当前AI评估方法的局限性,以及学术界在构建更公正、更科学的评估体系中的关键作用和机遇。



🌐 播客信息补充


翻译克隆自:⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect


本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的


使用 AI 进行翻译,因此可能会有一些地方不通顺;


如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧