时长:
50分钟
播放:
1,090
发布:
1周前
主播...
简介...
📝 本期播客简介
本期我们克隆了:OpenAI 顶尖研究员 Noam Brown 在加州大学伯克利分校(UC Berkeley)的深度技术分享。
Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown
Noam Brown 是 AI 界的传奇人物,他主导开发的 Libratus 和 Pluribus 在德州扑克领域击败了人类顶尖高手,随后的 Cicero 更是首次在复杂的《外交》策略游戏中展现了超人类的谈判与协作能力。在这场演讲中,Noam 并没有空谈概念,而是从博弈论的底层逻辑出发,深刻揭示了为什么在语言模型时代,我们不能简单复刻 AlphaGo 的成功路径。他提出了一个极具争议但也极具洞察力的观点:如果你的目标是让 AI 学会和人类合作,那么想绕开人类数据是行不通的。无论你是对 AI 智能体(Agent)感兴趣的开发者,还是关注通用人工智能(AGI)演进路径的观察者,这期关于多智能体协作、推理扩展和博弈论心法的分享都不容错过。
👨⚕️ 本期嘉宾
Noam Brown,OpenAI 研究员。曾就职于 Meta AI(FAIR)。他是世界上首个在六人桌德州扑克中击败顶尖职业选手的 AI——Pluribus 的核心作者,也是《外交》游戏 AI——Cicero 的主导者。他的研究重点在于如何通过多智能体强化学习和搜索算法,让 AI 在复杂、不完美信息的环境中实现战略推理与协作。
⏱️ 时间戳
00:00 开场 & 播客简介
AI 进化的底层逻辑
02:02 消失的最后一块拼图:为什么 LLM 还没实现像 AlphaGo 那样的自我提升?
04:04 偏见警告:我们对“自我博弈”的直觉是否被围棋过度拟合了?
06:17 德州扑克悖论:赢钱最多的人,不一定是技术最无懈可击的人
08:49 稳健性的代价:假设对手能看穿你的“模型权重”
不完美信息游戏的博弈心法
12:39 算法的局限:为什么 PPO 算法玩不好“石头剪刀布”?
15:58 概率的艺术:在扑克和现实中,动作的价值取决于你“多久做一次”
18:33 击败人类选手的算法:从虚拟博弈到遗憾匹配(Regret Matching)
22:36 寻找万能算法:跨越单智能体与多智能体强化学习的鸿沟
合作的真相:人类数据是绕不开的坎
23:36 零和博弈的冷酷:为什么在纯粹的对抗中,沟通毫无意义?
25:26 争议观点:想让 AI 学会与人合作,不使用人类数据是“死路一条”
26:52 最后通牒博弈:当数学上的“最优解”遇到感性的人类
31:21 《外交》游戏挑战:如何在充满了背叛与信任的环境中建模?
34:12 均衡的陷阱:为什么一个完美的 AI 进场后会被人类“虐惨”?
37:07 Cicero 的成功公式:模仿人类 + 推理扩展 + 强化学习环境
多智能体 AI 的新范式
39:14 o1 系列的启示:当推理性能曲线开始疯狂左移
41:51 延迟瓶颈:为什么多智能体协作是解决串行思维链(CoT)的关键
42:31 并行扩展技术:共识(Consensus)与 N 中选优的利弊权衡
44:45 路由即智能:多样性是多智能体系统的核心力量
46:01 现状与未来:自然语言已成为智能体之间完美的“沟通协议”
48:19 临界点:为什么现在是投身多智能体 AI 研究的绝佳时机
🌟 精彩内容
💡 AI 进化的三部曲
Noam 认为 AI 突破遵循:预训练(学人类)、推理扩展(想更久)、自我提升(超人类)。LLM 目前卡在了第三步。在双人零和游戏(如围棋)中,自我博弈能完美解决问题,但在复杂社会场景中,这远远不够。
🛠️ 为什么 PPO 算法会失效?
在不完美信息游戏中,简单的强化学习算法(如 PPO)无法收敛到纳什均衡。Noam 解释道,这是因为 AI 必须学会“随机化”自己的策略。如果你总是诈唬,价值就会归零;你必须以精确的概率平衡动作,这需要更高级的博弈论算法。
🚀 合作的“死路”论
这是全场最深刻的洞察:在“最后通牒博弈”中,数学最优解是只给对方一分钱,但现实中人类会因为觉得不公平而拒绝。Noam 认为,文化差异和人类的感性无法通过纯算力模拟出来。要学合作,必须喂给 AI 人类数据。
💻 Cicero:谈判 AI 的巅峰
通过《外交》游戏,Noam 展示了如何让 AI 既能像人一样说话谈判(Cicero),又能保持强大的战略推理。它的核心逻辑不是寻找数学上的绝对完美,而是寻找针对人类群体的“最优响应”。
🌐 播客信息补充
翻译克隆自:
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
本期我们克隆了:OpenAI 顶尖研究员 Noam Brown 在加州大学伯克利分校(UC Berkeley)的深度技术分享。
Agentic AI MOOC | UC Berkeley CS294-196 Fall 2025 | Multi-Agent AI by Noam Brown
Noam Brown 是 AI 界的传奇人物,他主导开发的 Libratus 和 Pluribus 在德州扑克领域击败了人类顶尖高手,随后的 Cicero 更是首次在复杂的《外交》策略游戏中展现了超人类的谈判与协作能力。在这场演讲中,Noam 并没有空谈概念,而是从博弈论的底层逻辑出发,深刻揭示了为什么在语言模型时代,我们不能简单复刻 AlphaGo 的成功路径。他提出了一个极具争议但也极具洞察力的观点:如果你的目标是让 AI 学会和人类合作,那么想绕开人类数据是行不通的。无论你是对 AI 智能体(Agent)感兴趣的开发者,还是关注通用人工智能(AGI)演进路径的观察者,这期关于多智能体协作、推理扩展和博弈论心法的分享都不容错过。
👨⚕️ 本期嘉宾
Noam Brown,OpenAI 研究员。曾就职于 Meta AI(FAIR)。他是世界上首个在六人桌德州扑克中击败顶尖职业选手的 AI——Pluribus 的核心作者,也是《外交》游戏 AI——Cicero 的主导者。他的研究重点在于如何通过多智能体强化学习和搜索算法,让 AI 在复杂、不完美信息的环境中实现战略推理与协作。
⏱️ 时间戳
00:00 开场 & 播客简介
AI 进化的底层逻辑
02:02 消失的最后一块拼图:为什么 LLM 还没实现像 AlphaGo 那样的自我提升?
04:04 偏见警告:我们对“自我博弈”的直觉是否被围棋过度拟合了?
06:17 德州扑克悖论:赢钱最多的人,不一定是技术最无懈可击的人
08:49 稳健性的代价:假设对手能看穿你的“模型权重”
不完美信息游戏的博弈心法
12:39 算法的局限:为什么 PPO 算法玩不好“石头剪刀布”?
15:58 概率的艺术:在扑克和现实中,动作的价值取决于你“多久做一次”
18:33 击败人类选手的算法:从虚拟博弈到遗憾匹配(Regret Matching)
22:36 寻找万能算法:跨越单智能体与多智能体强化学习的鸿沟
合作的真相:人类数据是绕不开的坎
23:36 零和博弈的冷酷:为什么在纯粹的对抗中,沟通毫无意义?
25:26 争议观点:想让 AI 学会与人合作,不使用人类数据是“死路一条”
26:52 最后通牒博弈:当数学上的“最优解”遇到感性的人类
31:21 《外交》游戏挑战:如何在充满了背叛与信任的环境中建模?
34:12 均衡的陷阱:为什么一个完美的 AI 进场后会被人类“虐惨”?
37:07 Cicero 的成功公式:模仿人类 + 推理扩展 + 强化学习环境
多智能体 AI 的新范式
39:14 o1 系列的启示:当推理性能曲线开始疯狂左移
41:51 延迟瓶颈:为什么多智能体协作是解决串行思维链(CoT)的关键
42:31 并行扩展技术:共识(Consensus)与 N 中选优的利弊权衡
44:45 路由即智能:多样性是多智能体系统的核心力量
46:01 现状与未来:自然语言已成为智能体之间完美的“沟通协议”
48:19 临界点:为什么现在是投身多智能体 AI 研究的绝佳时机
🌟 精彩内容
💡 AI 进化的三部曲
Noam 认为 AI 突破遵循:预训练(学人类)、推理扩展(想更久)、自我提升(超人类)。LLM 目前卡在了第三步。在双人零和游戏(如围棋)中,自我博弈能完美解决问题,但在复杂社会场景中,这远远不够。
🛠️ 为什么 PPO 算法会失效?
在不完美信息游戏中,简单的强化学习算法(如 PPO)无法收敛到纳什均衡。Noam 解释道,这是因为 AI 必须学会“随机化”自己的策略。如果你总是诈唬,价值就会归零;你必须以精确的概率平衡动作,这需要更高级的博弈论算法。
🚀 合作的“死路”论
这是全场最深刻的洞察:在“最后通牒博弈”中,数学最优解是只给对方一分钱,但现实中人类会因为觉得不公平而拒绝。Noam 认为,文化差异和人类的感性无法通过纯算力模拟出来。要学合作,必须喂给 AI 人类数据。
💻 Cicero:谈判 AI 的巅峰
通过《外交》游戏,Noam 展示了如何让 AI 既能像人一样说话谈判(Cicero),又能保持强大的战略推理。它的核心逻辑不是寻找数学上的绝对完美,而是寻找针对人类群体的“最优响应”。
🌐 播客信息补充
翻译克隆自:
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论