节目列表: 跨国串门儿计划 - EarsOnMe

跨国串门儿计划

📝 本期播客简介本期我们克隆了：OpenAI 顶尖研究员 Noam Brown 在加州大学伯克利分校（UC Berkeley）的深度技术分享。 Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown Noam Brown 是 AI 界的传奇人物，他主导开发的 Libratus 和 Pluribus 在德州扑克领域击败了人类顶尖高手，随后的 Cicero 更是首次在复杂的《外交》策略游戏中展现了超人类的谈判与协作能力。在这场演讲中，Noam 并没有空谈概念，而是从博弈论的底层逻辑出发，深刻揭示了为什么在语言模型时代，我们不能简单复刻 AlphaGo 的成功路径。他提出了一个极具争议但也极具洞察力的观点：如果你的目标是让 AI 学会和人类合作，那么想绕开人类数据是行不通的。无论你是对 AI 智能体（Agent）感兴趣的开发者，还是关注通用人工智能（AGI）演进路径的观察者，这期关于多智能体协作、推理扩展和博弈论心法的分享都不容错过。 👨‍⚕️ 本期嘉宾 Noam Brown，OpenAI 研究员。曾就职于 Meta AI（FAIR）。他是世界上首个在六人桌德州扑克中击败顶尖职业选手的 AI——Pluribus 的核心作者，也是《外交》游戏 AI——Cicero 的主导者。他的研究重点在于如何通过多智能体强化学习和搜索算法，让 AI 在复杂、不完美信息的环境中实现战略推理与协作。 ⏱️ 时间戳 00:00 开场 & 播客简介 AI 进化的底层逻辑 02:02 消失的最后一块拼图：为什么 LLM 还没实现像 AlphaGo 那样的自我提升？ 04:04 偏见警告：我们对“自我博弈”的直觉是否被围棋过度拟合了？ 06:17 德州扑克悖论：赢钱最多的人，不一定是技术最无懈可击的人 08:49 稳健性的代价：假设对手能看穿你的“模型权重” 不完美信息游戏的博弈心法 12:39 算法的局限：为什么 PPO 算法玩不好“石头剪刀布”？ 15:58 概率的艺术：在扑克和现实中，动作的价值取决于你“多久做一次” 18:33 击败人类选手的算法：从虚拟博弈到遗憾匹配（Regret Matching） 22:36 寻找万能算法：跨越单智能体与多智能体强化学习的鸿沟合作的真相：人类数据是绕不开的坎 23:36 零和博弈的冷酷：为什么在纯粹的对抗中，沟通毫无意义？ 25:26 争议观点：想让 AI 学会与人合作，不使用人类数据是“死路一条” 26:52 最后通牒博弈：当数学上的“最优解”遇到感性的人类 31:21 《外交》游戏挑战：如何在充满了背叛与信任的环境中建模？ 34:12 均衡的陷阱：为什么一个完美的 AI 进场后会被人类“虐惨”？ 37:07 Cicero 的成功公式：模仿人类 + 推理扩展 + 强化学习环境多智能体 AI 的新范式 39:14 o1 系列的启示：当推理性能曲线开始疯狂左移 41:51 延迟瓶颈：为什么多智能体协作是解决串行思维链（CoT）的关键 42:31 并行扩展技术：共识（Consensus）与 N 中选优的利弊权衡 44:45 路由即智能：多样性是多智能体系统的核心力量 46:01 现状与未来：自然语言已成为智能体之间完美的“沟通协议” 48:19 临界点：为什么现在是投身多智能体 AI 研究的绝佳时机 🌟 精彩内容 💡 AI 进化的三部曲 Noam 认为 AI 突破遵循：预训练（学人类）、推理扩展（想更久）、自我提升（超人类）。LLM 目前卡在了第三步。在双人零和游戏（如围棋）中，自我博弈能完美解决问题，但在复杂社会场景中，这远远不够。 🛠️ 为什么 PPO 算法会失效？在不完美信息游戏中，简单的强化学习算法（如 PPO）无法收敛到纳什均衡。Noam 解释道，这是因为 AI 必须学会“随机化”自己的策略。如果你总是诈唬，价值就会归零；你必须以精确的概率平衡动作，这需要更高级的博弈论算法。 🚀 合作的“死路”论这是全场最深刻的洞察：在“最后通牒博弈”中，数学最优解是只给对方一分钱，但现实中人类会因为觉得不公平而拒绝。Noam 认为，文化差异和人类的感性无法通过纯算力模拟出来。要学合作，必须喂给 AI 人类数据。 💻 Cicero：谈判 AI 的巅峰通过《外交》游戏，Noam 展示了如何让 AI 既能像人一样说话谈判（Cicero），又能保持强大的战略推理。它的核心逻辑不是寻找数学上的绝对完美，而是寻找针对人类群体的“最优响应”。 🌐 播客信息补充翻译克隆自：本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的使用 AI 进行翻译，因此可能会有一些地方不通顺；如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

50分钟

1k+

6个月前

#380.揭秘 Manus：从“对话”到“行动”，构建通用 AI 智能体的未来工作流

#379.数学、悖论与无穷的本质：Math Overflow 传奇哈姆金斯的数学多元宇宙

#378.破解大脑的“损失函数”：为什么 AI 喂了万亿数据，还是不如三岁小孩？

#377.法律界的 AI 革命：Harvey 如何重塑法律市场

#375. Vibe Coding 宣言：为何Claude Code并非终局，以及 IDE 之后将迎来什么

#376.深度学习之争：LLM 是通往通用人工智能的终途，还是误入歧途的“狂热崇拜”？

#374.怀疑是你的超能力：诺奖物理得主 Saul Perlmutter 聊科学思维、决策艺术

#373.MCP 协议一周年

#372.睡眠科学全指南：从神经机制到实用工具，深度解析如何精准优化睡眠

#371.Claude Code：为什么“大道至简”才是编程 Agent 的终极答案？

#370.为什么我们要把数据中心建在太空？

#369.OpenAI 传奇研究员 Noam Brown：多智能体 AI 的演进与人类数据的“死路”

加入我们的 Discord

扫描微信二维码

播放列表

跨国串门儿计划 - 节目列表