跨国串门儿计划 - #159. AI推理的“快与慢”：与OpenAI研究员Noam Brown聊智能体 - EarsOnMe

主播

节目简介

来源：小宇宙

📝 本期播客简介

本期我们克隆了：Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

他们邀请到OpenAI的重磅研究员诺姆·布朗（Noam Brown）。诺姆不仅是能媲美顶尖人类玩家的《外交》AI“西塞罗”的创造者，更是凭借对AI策略的深刻理解摘得该游戏世界冠军的传奇人物。在本期节目中，诺姆将从这段经历出发，深入剖析OpenAI内部备受瞩目的O系列推理模型，并用“思考，快与慢”的生动类比，揭示AI进行深度推理的奥秘。你还将听到他对多智能体系统构建“AI文明”的宏大构想、对AI编程未来的展望，以及关于OpenAI如何做出关键技术路线决策的珍贵幕后故事。

👨‍⚕️ 本期嘉宾

诺姆·布朗（Noam Brown），OpenAI研究员。他因在Meta AI工作期间领导开发了在复杂策略游戏《外交》中取得突破的AI“西塞罗”（Cicero）而闻名，并于2022年亲自赢得《外交》世界冠军。此前，他因在扑克AI（Libratus）领域的研究而备受赞誉。他的工作专注于AI推理、多智能体系统和博弈论的前沿。

📒 文字版精华

见微信公众号（点击跳转）

⏱️ 时间戳

00:55 开场总结

外交AI“西塞罗”的幕后

02:09 开发AI如何帮助Noam赢得世界冠军

04:09 早期语言模型的局限与AI安全性的思考

O系列推理模型与OpenAI的研发哲学

07:21 O系列模型的快速进展与Deep Research的应用

10:48 “思考，快与慢”：AI推理的系统1与系统2类比及其局限

15:05 “束缚装置”与模型路由：临时拐杖终将被规模化淘汰

22:01 强化学习微调(RFT)为何能超越模型迭代

22:49 推理范式的诞生：与Ilya Sutskever的对话及OpenAI的内部博弈

AI编程、数据效率与未来工作

29:59 数据效率：AI领域最重要的未解难题之一

33:36 Noam Brown的编程工作流：如何“压榨”Codex并“感受AGI”

39:20 AI的未来：从编程助手到胜任各类远程办公任务

多智能体、博弈论与机器人学

41:37 多智能体研究：从“AI穴居人”到“AI文明”

45:07 深度解析扑克AI：GTO策略与剥削性打法的权衡

53:30 自我对弈的局限：为何AlphaGo的成功范式难以复制

59:10 机器人学的挑战：硬件迭代的痛苦与人形机器人的反思

快问快答 & 总结

01:03:01 顶尖实验室如何追踪前沿研究

01:05:42 “测试时计算”的瓶颈：成本与时间墙

01:11:25 游戏推荐：《血染钟楼》

01:12:30 AI能征服《万智牌》这样的复杂游戏吗？

🌟 精彩内容

西塞罗的传奇: 从开发AI到赢得世界冠军的独特经历，以及对AI安全的可控性启发。

“思考，快与慢”新解: 揭示推理模型（O系列）如何工作，以及其成功的先决条件——一个足够强大的基础模型。

OpenAI内部故事: 关于推理范式如何诞生、与Ilya Sutskever的对话，以及内部关于技术路线的决策与博弈。

“惨痛教训”的普适性: 为什么“束缚装置”、模型路由等复杂工程最终可能被纯粹的规模化所淘汰。

博弈论AI深度剖析: 从扑克到《外交》，探讨GTO（博弈论最优）与剥削性策略的差异，以及自我对弈在复杂系统中的局限性。

AI的未来形态: 探讨AI如何从编程助手扩展到更广泛的认知工作，以及多智能体系统如何通过协作竞争构建“AI文明”。

🌐 播客信息补充

翻译克隆自：Scaling Test Time Compute to Multi-Agent Civilizations — Noam Brown, OpenAI

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

#159. AI推理的“快与慢”：与OpenAI研究员Noam Brown聊智能体

加入我们的 Discord

扫描微信二维码

播放列表