#340.：对话李飞飞与Justin Johnson:超越语言模型，构建理解三维世界的AI新前沿

59分钟 1,736 6个月前

主播

节目简介

来源：小宇宙

📝 本期播客简介
本期我们克隆了知名播客《Latent Space》的深度对话，主持人Alessio Fanelli和Wix邀请到World Labs的两位联合创始人——人工智能领域的先驱李飞飞教授和她的前学生Justin Johnson。李飞飞教授是斯坦福大学以人为本人工智能研究院的创始联席主任，也是ImageNet的奠基人，而Justin Johnson则曾任Meta和密歇根大学教授。他们将带我们深入探讨“世界模型”和“空间智能”这一A I领域的下一个前沿。对话中，两位嘉宾分享了他们如何从ImageNet时代一路走来，共同创立World Labs，致力于构建一个能理解、推理和生成三维世界的模型。他们隆重介绍了公司首款产品Marble，这是一个能将文本或图片转化为可交互、可编辑三维世界的生成模型，其应用场景横跨游戏、电影、视觉特效、设计乃至机器人训练。节目深入探讨了深度学习中算力规模化的历史、A I“理解”物理规律与“拟合模式”的差异，以及为何空间智能被低估，它与语言智能如何互补共存。这不仅是一场关于前沿技术的讨论，更是一次对A I未来方向的深刻思考，揭示了从像素到空间智能的广阔前景。
翻译克隆自：After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs
👨‍⚕️ 本期嘉宾
李飞飞教授：斯坦福大学以人为本人工智能研究院的创始联席主任，ImageNet的奠基人。
Justin Johnson：World Labs联合创始人，曾任Meta和密歇根大学教授，李飞飞教授的学生。
⏱️ 时间戳
00:00 开场 & 播客简介
World Labs的诞生与愿景
02:10 深度学习的历史与算力规模化：从CPU到GPU的飞跃
02:34 World Labs的首款产品Marble：三维世界的生成模型
03:44 师生情谊：李飞飞与Justin Johnson的缘起
04:00 AlexNet与ImageNet时代：AI从数据中心走向现实世界的转折点
05:15 世界模型的“AlexNet时刻”：数据与算力的爆发式增长
AI研究的生态与未来
06:44 开放科学与产业界：AI生态系统的多样性与挑战
08:01 商业压力下的学术研究：资源失衡与人才流失的担忧
10:57 学术界的新定位：探索“古怪想法”与基础理论
12:36 “古怪想法”的例子：下一代硬件与神经网络架构的结合
从像素到空间智能：技术演进之路
14:53 图像字幕生成：从Andrej到Justin的合作历程
15:46 讲述图像故事的梦想：从ImageNet到密集字幕生成
21:49 空间智能与语言智能的异同：像素与三维世界的本质区别
22:12 像素最大化：文本作为物理实体在现实世界的表现
23:25 AI对物理规律的“理解”：拟合模式与因果定律的差异
25:50 模型“理解”物理的重要性：取决于应用场景
Marble：空间智能的首次亮相
30:22 Marble的定位：空间智能愿景的第一步
31:14 Marble的功能：多模态输入、可编辑性与多样化输出
32:03 Marble的应用场景：游戏、视觉特效、电影与机器人训练
33:03 精确的摄像机控制：三维空间感的自然产物
34:05 Marble的原子单位：高斯splats与实时渲染
35:34 动力学与物理属性：未来Marble 2的潜力
37:26 Splats的密度与分辨率：移动设备与VR头显的限制
38:13 具身智能与机器人训练：Marble在模拟环境中的巨大潜力
40:29 设计领域：Marble在室内设计、厨房改造中的意外应用
空间智能的深层思考
41:29 空间智能的定义：在空间中推理、理解、移动和交互的能力
42:52 空间智能与语言智能的互补性：牛顿定律与具身经验
45:12 视觉被低估：人类感知与空间智能的进化优势
47:15 Winograd Schema Challenge：语言模型在空间智能上的局限
48:03 语言模型与空间智能的协同工作：多模态输入与通用模型
49:01 AI能否从零发现物理定律：地心说与牛顿定律的抽象层次
51:21 不同的学习范式：假设、实验与心智理论
52:34 序列到序列模型与Transformer：技术架构的演进
55:27 招募人才与未来展望
🌟 精彩内容
💡 深度学习的算力飞跃与世界模型
Justin Johnson指出，深度学习的发展史就是算力规模化的历史，从AlexNet到今天，显卡性能提升千倍，模型训练算力更是百万倍增长。这为处理海量视觉和空间数据，构建“世界模型”奠定了基础。
“我觉得深度学习的整个发展史，在某种意义上就是一部算力规模化的历史。”
🚀 Marble：空间智能的首次亮相
World Labs推出了首款产品Marble，一个能将文本或图片转化为可交互、可编辑三维世界的生成模型。它不仅是迈向空间智能宏大愿景的第一步，也已在游戏、电影、视觉特效、设计和机器人训练等领域展现出巨大潜力。
“Marble一方面是朝着空间智能这个宏大愿景迈进的世界模型，另一方面，我们也有意将它设计成一个大家今天就能实际使用的产品。”
🧠 空间智能与语言智能的互补
李飞飞教授强调，空间智能与语言智能是互补的。空间智能是让你在三维空间中进行推理、理解、移动和交互的能力，而人类的感知和空间智能是经过亿万年进化优化的，却常被低估。
“我确实认为空间智能与语言智能是互补的。我们如何定义空间智能呢？它是一种能让你在空间中进行推理、理解、移动和交互的能力。”
🌌 AI对物理规律的“理解”
嘉宾们探讨了AI模型对物理规律的“理解”是拟合模式还是因果定律。他们认为，目前的深度学习仍停留在拟合模式，难以像人类那样建立因果模型。模型能否“理解”物理，取决于其应用场景，在某些情况下，只要“看起来对”就足够。
“但没有任何迹象表明，那种隐式的建模能让你得到关于空间和动力学的因果定律。这正是今天的深度学习和人类智能开始分道扬镳的地方。因为从根本上说，深度学习仍然是在拟合模式。”
🔬 学术界的新角色：探索“古怪想法”
Justin Johnson认为，随着技术规模化，学术界不应再追求训练最大的模型，而应专注于尝试那些“稀奇古怪、全新的、疯狂的想法”，例如探索下一代硬件与神经网络架构的结合，以及大模型理论基础的理解。
“学术界的目标不应该是去训练最大的模型，追求最大规模，而应该是去尝试那些稀奇古怪、全新的、疯狂的想法，其中大部分可能都不会成功。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的
使用 AI 进行翻译，因此可能会有一些地方不通顺；
如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

小宇宙热评

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

yf_nKtk

6个月前广东

交流群怎么加

激进躺平

6个月前广东

这次的语音和内容好乱的感觉，没对上。

黎蔓蔓

6个月前浙江

56:14 transformer不是一个token序列的模型，是一个token集合的模型

$EarsOnMe$

EarsOnMe

外观

#340.：对话李飞飞与Justin Johnson:超越语言模型，构建理解三维世界的AI新前沿

加入我们的 Discord

扫描微信二维码

播放列表