跨国串门儿计划 - #128. 当AI学会“思考”：从Claude看RL、推理、工具使用及伦理红线 - EarsOnMe

跨国串门儿计划
#128. 当AI学会“思考”：从Claude看RL、推理、工具使用及伦理红线

时长：

34分钟

播放：

830

发布：

5个月前

主播...

yikai-

简介...

📝 本期播客简介

本期我们克隆了：⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect

本期《Latent Space》节目，主持人Alessio Fanelli (Decibel联合创始人兼CTO)和SWYX (SmallAI创始人)邀请到Prime Intellect的Will Brown，共同深入探讨Anthropic最新发布的Claude 3.5 Sonnet及Opus模型。节目聚焦于新模型在推理能力、工具调用、“思维扩展”功能上的进化，以及从强调纯推理到更注重智能体实用能力的转变。Will Brown分享了关于模型奖励机制滥用（Reward Hacking）、AI安全测试争议（如铀材料搜索的例子）、以及通过强化学习（特别是GRPO）提升模型工具使用的主动性和有效性的见解。讨论还延伸到大语言模型权限管理、评估体系的未来以及学术研究在AI发展中的关键作用。

感谢minimax提供的语音克隆技术支持，我们采用了minimax的speech-02模型进行声音复刻。通过minimax目前业界领先的语音克隆技术，我们能够精准还原原播客主持人和嘉宾的声音特征、情感色彩和语调变化，让您在聆听中文内容的同时，依然能感受到原声音的独特魅力。

👨‍⚕️ 本期嘉宾

Will Brown，来自Prime Intellect。AI研究者，在强化学习（RL）、AI智能体、模型评估和代码生成领域有深入研究。近期参与发表了关于GRPO（梯度反向策略优化）的研究成果，致力于提升AI模型在复杂任务（如多轮工具调用）中的表现和可靠性。

🌟 精彩内容

Claude 3.5特性解析: 深入讨论Claude 3.5 Sonnet与Opus在推理、工具调用和“思维扩展”功能上的最新进展。

智能体与推理的平衡: 从追求纯推理高分到构建实用AI智能体的行业趋势转变，强调工具调用和多轮对话等实用功能。

工具使用与奖励机制: 探讨AI模型如何学习主动使用工具，以及如何通过强化学习（如GRPO）克服奖励机制滥用（Reward Hacking）等问题，例如模型假装使用工具或过度完成任务。

AI安全与伦理争议: 剖析Claude模型安全测试中的争议案例（如“暗网搜铀材料”的段子），讨论AI权限管理、模型行为的解读及其社会责任。

“思维预算”与成本控制: 讨论模型推理的“思考预算”概念，以及开发者如何在模型输出质量、成本和延迟间进行权衡。

强化学习的挑战与前沿: Will Brown分享其团队在GRPO及多轮强化学习方面的研究，以及LLM作为评估者（Referee）判断回答质量和工具使用有效性的潜力。

AI评估体系的未来: 探讨当前AI评估方法的局限性，以及学术界在构建更公正、更科学的评估体系中的关键作用和机遇。

🌐 播客信息补充

翻译克隆自：⚡️Multi-Turn RL for Multi-Hour Agents — with Will Brown, Prime Intellect

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表