跨国串门儿计划 - #519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相 - EarsOnMe

主播

节目简介

来源：小宇宙

📝 本期播客简介
本期我们克隆了资深科技播客《Information Bottleneck》的一期节目 What Actually Matters in AI? - with Zhuang Liu (Princeton)
主持人 Ravi 和 Ellen 对谈普林斯顿大学助理教授 Zhuang Liu。Zhuang Liu 是深度学习架构、视觉表征与多模态学习领域的活跃研究者，曾提出 ConvNeXt 等广为采用的模型。在这场深度对话中，他系统性地拆解了构建强大 AI 系统中那些真正起作用的因素：为什么架构创新可能被高估，数据才是真正的驱动力；如何科学地评估一个新架构的价值；视觉数据的极高带宽如何让语言模型率先突破；以及他对记忆、上下文和智能体未来的独到见解。无论你是研究者、工程师还是 AI 爱好者，这期节目都将刷新你的认知。
👨‍⚕️ 本期嘉宾
Zhuang Liu，普林斯顿大学助理教授。研究兴趣包括深度学习架构、视觉表征、多模态学习。曾提出 ConvNeXt 等广受关注的模型，并在多篇顶会论文中探讨神经网络设计的核心要素。
⏱️ 时间戳
00:00 开场介绍 & 嘉宾背景
架构与细节：什么才是神经网络成功的关键？
02:05 从 ConvNeXt 谈起：卷积网络能否与 Transformer 抗衡？
06:39 细节组合胜于核心组件：激活函数、归一化层的累积效应
08:51 架构没那么重要，数据和计算才是真正的驱动力
10:54 评价架构创新的黄金准则：超参数搜索与多数据集验证
数据为王：偏见、多样性与混合策略
13:42 数据集的“偏见”：模型竟能分辨图片来源？
16:39 好数据的配方：多样性、风格与等量配比
18:49 从 Ilya 箴言到通用模型：数据覆盖就是王道
多模态：视觉的桥梁与盲点
19:05 ImageBind：以视觉为枢纽对齐多模态
20:31 语言先行的秘密：视觉带宽过高而算力尚不足
22:38 《Eyes Wide Shut》：CLIP 的空间盲点与视觉编码瓶颈
记忆、上下文与世界模型
24:19 强化学习与智能体的边界
28:59 “记忆和上下文是目前最重要的两个方面”
30:35 世界模型之辩：语言层面已有很好的世界模型
33:09 何时需要视觉世界模型？现实世界任务
模型个性、工具与研究新范式
34:28 模型“独特性”：文本里的隐形签名
37:06 预训练 vs. 后训练：为什么后训练导致差异？
38:59 持续学习：为了稳定的记忆而非新技能
39:24 编程工具体验：Claude Code 与 Codex 谁更胜一筹？
40:08 智能体能替代学生吗？自主研究的现状与局限
43:09 《无归一化的Transformer》：动态tanh能取代归一化吗？
44:40 Metamorph：理解作为生成的基础
45:54 结语与告别
🌟 精彩内容
💡 细节决定成败
Zhuang Liu 通过 ConvNeXt 研究揭示：卷积网络与 Transformer 之间的性能差距，主要来自训练细节和设计配方的差异，而非自注意力与卷积本身。这提醒我们，看似微不足道的超参数与组件组合，往往比宏大的架构叙事更重要。
“这些小细节组合在一起，比那些看起来像是网络核心组件的改变要重要得多。”
💡 数据才是真正的护城河
在受访中，Liu 反复强调，架构选择的差异远不如训练数据的规模、多样性与分布来得关键。模型的能力上限，很大程度上被它所“看”过的数据所定义。
“你想让模型在哪方面做得好，最好就针对那方面去训练。”
💡 记忆与上下文：AI 的下一个突破口
Liu 认为，当前大模型最紧迫的挑战不是能力不足，而是记忆的缺失。持续记住用户的偏好、交互历史和情境，远比设计更复杂的多智能体系统更具变革意义。
“我觉得记忆和上下文是目前最重要的两个方面，尤其是记忆。”
💡 语言里的世界模型
尽管很多研究者认为当前模型尚未具备真正的世界模型，但 Liu 指出，在高度抽象的语言空间里，语言模型已经能够进行连贯的因果推演，展现出令人惊叹的逻辑一致性。
“模型在这个空间里的世界模型其实非常好。”
💡 视觉：被忽视的桥梁
通过 ImageBind 等工作，Liu 展示了视觉作为一种“天然桥梁”，能够将多种模态连接至同一嵌入空间。但他也坦承，视觉数据的高通量特性导致其在算力需求上数倍于语言，这解释了为什么视觉模型还未迎来语言模型那样的爆发。
“视觉是一种天然桥梁，能够连接所有模态。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的
使用 AI 进行翻译，因此可能会有一些地方不通顺；
如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

加入我们的 Discord

扫描微信二维码

播放列表