时长:
57分钟
播放:
356
发布:
2天前
主播...
简介...
📝 本期播客简介
本期我们克隆了知名播客《Matt Turck 的播客》中的一场深入对话,主持人 Matt Turck 邀请到人工智能领域的关键构建者 Łukasz Kaiser。Łukasz 不仅是奠定现代 AI 基础的 Transformer 架构的共同发明人之一,那篇划时代的论文《Attention Is All You Need》正是出自他手,他目前还是 OpenAI 的顶尖研究科学家,正引领着 AI 从预训练模型向推理模型这一重大范式转变。在这期节目中,Łukasz Kaiser 犀利驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,而推理模型的出现,正如 S 型曲线的下半段,正以惊人的效率解锁前所未有的能力。他会详细解释推理模型如何通过“思维链”和强化学习进行“思考”,以及它们为何在科学和编程领域表现出色,却在某些看似简单的多模态任务上仍显“参差不齐”。我们还将回顾 Transformer 论文诞生背后的故事,探讨 AI 模型的黑箱问题,以及 OpenAI 如何通过“后训练”和“蒸馏”技术不断提升 GPT 5.1 的用户体验。Łukasz 还会展望 AI 的未来,包括通用强化学习、机器人技术以及 AI 对人类工作和泛化能力的深远影响。无论你是 AI
领域的专业人士,还是对前沿科技充满好奇的普通听众,这期节目都将为你揭示人工智能最前沿的奥秘和挑战。
翻译克隆自:What’s Next for AI? OpenAI’s Łukasz Kaiser (Transformer Co-Author)
👨⚕️ 本期嘉宾
Łukasz Kaiser,人工智能领域的关键构建者之一,Transformer 架构的共同发明人(《Attention Is All You Need》论文合著者)。目前是 OpenAI 的顶尖研究科学家,专注于推动 AI 从预训练模型向推理模型的范式转变。
⏱️ 时间戳
开场 & 播客简介
00:00 AI 能力的平滑指数级增长
02:08 Łukasz Kaiser:Transformer 共同发明人与 OpenAI 顶尖科学家
AI 进展:驳斥“放缓论”
04:15 AI 进展如摩尔定律般指数级增长,从未停止
05:21 推理模型:AI 发展的又一重大转折点,处于 S 型曲线的下半段
06:16 圈内人与圈外人的认知差距:大模型能力远超想象
06:59 案例:ChatGPT 如何从“胡编乱造”到“联网推理”
08:07 Codex 如何改变程序员工作流
AI 发展的“唾手可得”成果
08:47 巨大的工程改进空间:基础设施、bug 修复与分布式计算
09:54 数据质量提升:从 Common Crawl 到合成数据
10:36 多模态能力的显著提升空间
推理模型深度解析
11:35 推理模型:通过“思维链”进行“思考”的大语言模型
12:07 思考过程的训练:从梯度下降到强化学习
13:32 强化学习的局限:更适用于可验证的科学与编程领域
14:10 强化学习的演变:从 RLHF 到大规模强化学习
Łukasz Kaiser 的 AI 之旅
20:27 从理论数学家到 AI 研究员
21:22 谷歌大脑的经历与法国终身教职的“十年假”
22:38 Transformer 论文诞生故事:多方思想的汇聚
23:17 “注意力机制”:深度学习中的“对齐”概念
24:14 Transformer 的核心创新:自注意力机制与工程挑战
25:11 早期质疑:一个模型处理多个任务的“不可能”设想
26:10 从谷歌到 OpenAI:小团队与大公司的文化差异
27:51 OpenAI 内部研究团队的组织方式与 GPU 资源分配
预训练的未来与经济考量
29:35 预训练在科学层面已达 S 曲线顶端,但仍可平稳扩展
30:09 经济因素影响:从“最大模型”到“更小、更便宜的模型”
31:19 “蒸馏”技术:将大模型知识传授给小模型
32:24 GPU 投资与“预训练复兴”
模型可解释性与 GPT 5.1
33:15 模型可解释性:在理解与黑箱之间取得平衡
35:10 GPT 5 到 5.1 的演进:推理、强化学习与后训练的结合
36:18 后训练:提升模型的安全、友好与减少“幻觉”
37:31 GPT 5.1 的风格选择与强化学习
38:42 模型命名方式的转变:从技术对齐到能力导向
推理深度与泛化挑战
40:40 用户引导思考时间:更多思考带来更强能力
41:14 推理模型的“参差不齐”:在某些领域惊人,在邻近领域挣扎
41:57 案例:五岁小孩的数学题难倒顶尖 AI 模型
43:25 多模态与泛化能力:AI 发展的核心挑战
AI 的未来展望
45:07 Transformer 之外的架构探索:ARC 挑战、Yann LeCun 的 JEPA
47:52 Codex 的潜力:成为 AI 研究员的“AI 实习生”
48:06 Codex Max 与长上下文、压缩技术
51:18 AI 对人类工作的影响:以翻译行业为例
53:13 信任问题:AI 自动化与人类审核的必要性
54:12 机器人技术:通用强化学习与多模态的终极应用
55:18 人类对新技术的惊人适应速度
🌟 精彩内容
💡 AI 发展:平滑的指数级增长
Łukasz Kaiser 驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,这得益于新发展、计算能力提升和工程实践。推理模型的出现是继 Transformer 之后的又一重大转折点,正处于 S 型曲线的下半段,以惊人的效率解锁前所未有的能力。
“如果你审视人工智能的进展,会发现它的能力一直是在平稳地指数级增长。这才是 overarching 的大趋势,从来没有什么迹象让我,至少是我和实验室的同事们,相信这个趋势会停止。”
🧠 推理模型:AI 的新范式
Łukasz 详细解释了推理模型的核心机制:它们在给出答案前会进行“思考”(思维链),并被允许使用工具(如网页搜索)。这种思考过程通过强化学习进行训练,而非传统的梯度下降。推理模型在科学和编程等可验证领域表现出色,但由于多模态能力和泛化性仍有待提升,在某些看似简单的任务上仍显“参差不齐”。
“推理模型就像你的基础大语言模型,但在给出答案之前,它会先进行思考,也就是人们所说的‘思维链’……你想要告诉模型:‘你应该好好思考,你的思考方式要能导向一个好的答案’。”
📜 Transformer 诞生与早期质疑
作为 Transformer 论文的共同发明人,Łukasz 回顾了这一划时代架构的诞生故事。他强调 Transformer 是多方思想汇聚的成果,其核心创新是自注意力机制。他分享了早期业界对“一个模型处理多个任务”这一想法的普遍质疑,以及当时如何未曾预料到 Transformer 能在短短五年内发展成为如今的聊天机器人。
“你从来不会用同一个模型去做三个不同的任务。你干嘛要写 API 来让一个模型处理多个任务?” 我就说:“不不,我们将来要用一个模型做所有任务。” 然后他们就说:“不可能的。”
🚀 GPT 5.1:后训练与经济考量
Łukasz 解释了 GPT 5 到 5.1 的演进,主要得益于推理能力的提升、强化学习的应用以及大量的“后训练”。随着 ChatGPT 用户规模的爆炸式增长,OpenAI 不仅要追求模型性能,更要考虑经济效益,这促使他们重新审视“蒸馏”技术,以训练出更小、更便宜但质量相当的模型。
“纯粹从经济角度考虑,你需要更小的模型。这当然也发生在所有实验室身上,因为一旦经济因素介入,产品化了,你就必须比以前更仔细地考虑价格。”
🤖 AI 的未来:泛化、机器人与信任
Łukasz 展望了 AI 的未来,他认为通用强化学习和机器人技术是令人兴奋的研究方向。他指出,AI 最大的挑战在于泛化能力,即模型能否像人类一样,用少量数据学习并举一反三。他以翻译行业为例,说明即使 AI 能力强大,人类的信任和审核仍不可或缺,人类工作不会消失,但形式将发生巨大变化。
“我相信推理确实能提升泛化能力,但现在我们只在非常狭窄的领域训练它,所以可能还为时过早。但我认为整个人工智能领域最大的问题是,推理本身是否足以提升泛化能力。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
本期我们克隆了知名播客《Matt Turck 的播客》中的一场深入对话,主持人 Matt Turck 邀请到人工智能领域的关键构建者 Łukasz Kaiser。Łukasz 不仅是奠定现代 AI 基础的 Transformer 架构的共同发明人之一,那篇划时代的论文《Attention Is All You Need》正是出自他手,他目前还是 OpenAI 的顶尖研究科学家,正引领着 AI 从预训练模型向推理模型这一重大范式转变。在这期节目中,Łukasz Kaiser 犀利驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,而推理模型的出现,正如 S 型曲线的下半段,正以惊人的效率解锁前所未有的能力。他会详细解释推理模型如何通过“思维链”和强化学习进行“思考”,以及它们为何在科学和编程领域表现出色,却在某些看似简单的多模态任务上仍显“参差不齐”。我们还将回顾 Transformer 论文诞生背后的故事,探讨 AI 模型的黑箱问题,以及 OpenAI 如何通过“后训练”和“蒸馏”技术不断提升 GPT 5.1 的用户体验。Łukasz 还会展望 AI 的未来,包括通用强化学习、机器人技术以及 AI 对人类工作和泛化能力的深远影响。无论你是 AI
领域的专业人士,还是对前沿科技充满好奇的普通听众,这期节目都将为你揭示人工智能最前沿的奥秘和挑战。
翻译克隆自:What’s Next for AI? OpenAI’s Łukasz Kaiser (Transformer Co-Author)
👨⚕️ 本期嘉宾
Łukasz Kaiser,人工智能领域的关键构建者之一,Transformer 架构的共同发明人(《Attention Is All You Need》论文合著者)。目前是 OpenAI 的顶尖研究科学家,专注于推动 AI 从预训练模型向推理模型的范式转变。
⏱️ 时间戳
开场 & 播客简介
00:00 AI 能力的平滑指数级增长
02:08 Łukasz Kaiser:Transformer 共同发明人与 OpenAI 顶尖科学家
AI 进展:驳斥“放缓论”
04:15 AI 进展如摩尔定律般指数级增长,从未停止
05:21 推理模型:AI 发展的又一重大转折点,处于 S 型曲线的下半段
06:16 圈内人与圈外人的认知差距:大模型能力远超想象
06:59 案例:ChatGPT 如何从“胡编乱造”到“联网推理”
08:07 Codex 如何改变程序员工作流
AI 发展的“唾手可得”成果
08:47 巨大的工程改进空间:基础设施、bug 修复与分布式计算
09:54 数据质量提升:从 Common Crawl 到合成数据
10:36 多模态能力的显著提升空间
推理模型深度解析
11:35 推理模型:通过“思维链”进行“思考”的大语言模型
12:07 思考过程的训练:从梯度下降到强化学习
13:32 强化学习的局限:更适用于可验证的科学与编程领域
14:10 强化学习的演变:从 RLHF 到大规模强化学习
Łukasz Kaiser 的 AI 之旅
20:27 从理论数学家到 AI 研究员
21:22 谷歌大脑的经历与法国终身教职的“十年假”
22:38 Transformer 论文诞生故事:多方思想的汇聚
23:17 “注意力机制”:深度学习中的“对齐”概念
24:14 Transformer 的核心创新:自注意力机制与工程挑战
25:11 早期质疑:一个模型处理多个任务的“不可能”设想
26:10 从谷歌到 OpenAI:小团队与大公司的文化差异
27:51 OpenAI 内部研究团队的组织方式与 GPU 资源分配
预训练的未来与经济考量
29:35 预训练在科学层面已达 S 曲线顶端,但仍可平稳扩展
30:09 经济因素影响:从“最大模型”到“更小、更便宜的模型”
31:19 “蒸馏”技术:将大模型知识传授给小模型
32:24 GPU 投资与“预训练复兴”
模型可解释性与 GPT 5.1
33:15 模型可解释性:在理解与黑箱之间取得平衡
35:10 GPT 5 到 5.1 的演进:推理、强化学习与后训练的结合
36:18 后训练:提升模型的安全、友好与减少“幻觉”
37:31 GPT 5.1 的风格选择与强化学习
38:42 模型命名方式的转变:从技术对齐到能力导向
推理深度与泛化挑战
40:40 用户引导思考时间:更多思考带来更强能力
41:14 推理模型的“参差不齐”:在某些领域惊人,在邻近领域挣扎
41:57 案例:五岁小孩的数学题难倒顶尖 AI 模型
43:25 多模态与泛化能力:AI 发展的核心挑战
AI 的未来展望
45:07 Transformer 之外的架构探索:ARC 挑战、Yann LeCun 的 JEPA
47:52 Codex 的潜力:成为 AI 研究员的“AI 实习生”
48:06 Codex Max 与长上下文、压缩技术
51:18 AI 对人类工作的影响:以翻译行业为例
53:13 信任问题:AI 自动化与人类审核的必要性
54:12 机器人技术:通用强化学习与多模态的终极应用
55:18 人类对新技术的惊人适应速度
🌟 精彩内容
💡 AI 发展:平滑的指数级增长
Łukasz Kaiser 驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,这得益于新发展、计算能力提升和工程实践。推理模型的出现是继 Transformer 之后的又一重大转折点,正处于 S 型曲线的下半段,以惊人的效率解锁前所未有的能力。
“如果你审视人工智能的进展,会发现它的能力一直是在平稳地指数级增长。这才是 overarching 的大趋势,从来没有什么迹象让我,至少是我和实验室的同事们,相信这个趋势会停止。”
🧠 推理模型:AI 的新范式
Łukasz 详细解释了推理模型的核心机制:它们在给出答案前会进行“思考”(思维链),并被允许使用工具(如网页搜索)。这种思考过程通过强化学习进行训练,而非传统的梯度下降。推理模型在科学和编程等可验证领域表现出色,但由于多模态能力和泛化性仍有待提升,在某些看似简单的任务上仍显“参差不齐”。
“推理模型就像你的基础大语言模型,但在给出答案之前,它会先进行思考,也就是人们所说的‘思维链’……你想要告诉模型:‘你应该好好思考,你的思考方式要能导向一个好的答案’。”
📜 Transformer 诞生与早期质疑
作为 Transformer 论文的共同发明人,Łukasz 回顾了这一划时代架构的诞生故事。他强调 Transformer 是多方思想汇聚的成果,其核心创新是自注意力机制。他分享了早期业界对“一个模型处理多个任务”这一想法的普遍质疑,以及当时如何未曾预料到 Transformer 能在短短五年内发展成为如今的聊天机器人。
“你从来不会用同一个模型去做三个不同的任务。你干嘛要写 API 来让一个模型处理多个任务?” 我就说:“不不,我们将来要用一个模型做所有任务。” 然后他们就说:“不可能的。”
🚀 GPT 5.1:后训练与经济考量
Łukasz 解释了 GPT 5 到 5.1 的演进,主要得益于推理能力的提升、强化学习的应用以及大量的“后训练”。随着 ChatGPT 用户规模的爆炸式增长,OpenAI 不仅要追求模型性能,更要考虑经济效益,这促使他们重新审视“蒸馏”技术,以训练出更小、更便宜但质量相当的模型。
“纯粹从经济角度考虑,你需要更小的模型。这当然也发生在所有实验室身上,因为一旦经济因素介入,产品化了,你就必须比以前更仔细地考虑价格。”
🤖 AI 的未来:泛化、机器人与信任
Łukasz 展望了 AI 的未来,他认为通用强化学习和机器人技术是令人兴奋的研究方向。他指出,AI 最大的挑战在于泛化能力,即模型能否像人类一样,用少量数据学习并举一反三。他以翻译行业为例,说明即使 AI 能力强大,人类的信任和审核仍不可或缺,人类工作不会消失,但形式将发生巨大变化。
“我相信推理确实能提升泛化能力,但现在我们只在非常狭窄的领域训练它,所以可能还为时过早。但我认为整个人工智能领域最大的问题是,推理本身是否足以提升泛化能力。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
评价...
空空如也
小宇宙热门评论...
toto233
2天前
北京
0
28:48 主持人说话有些奇怪,是引入了一些新工具吗?
HD68364f
1天前
北京
0
嘉宾声音有点像常熟阿诺。。