Album
时长:
59分钟
播放:
1,065
发布:
5天前
主播...
简介...
https://xiaoyuzhoufm.com
📝 本期播客简介
本期我们克隆了知名播客《Latent Space》的深度对话,主持人Alessio Fanelli和Wix邀请到World Labs的两位联合创始人——人工智能领域的先驱李飞飞教授和她的前学生Justin Johnson。李飞飞教授是斯坦福大学以人为本人工智能研究院的创始联席主任,也是ImageNet的奠基人,而Justin Johnson则曾任Meta和密歇根大学教授。他们将带我们深入探讨“世界模型”和“空间智能”这一A I领域的下一个前沿。 对话中,两位嘉宾分享了他们如何从ImageNet时代一路走来,共同创立World Labs,致力于构建一个能理解、推理和生成三维世界的模型。他们隆重介绍了公司首款产品Marble,这是一个能将文本或图片转化为可交互、可编辑三维世界的生成模型,其应用场景横跨游戏、电影、视觉特效、设计乃至机器人训练。节目深入探讨了深度学习中算力规模化的历史、A I“理解”物理规律与“拟合模式”的差异,以及为何空间智能被低估,它与语言智能如何互补共存。这不仅是一场关于前沿技术的讨论,更是一次对A I未来方向的深刻思考,揭示了从像素到空间智能的广阔前景。
翻译克隆自:After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs
👨‍⚕️ 本期嘉宾
李飞飞教授:斯坦福大学以人为本人工智能研究院的创始联席主任,ImageNet的奠基人。
Justin Johnson:World Labs联合创始人,曾任Meta和密歇根大学教授,李飞飞教授的学生。
⏱️ 时间戳
00:00 开场 & 播客简介
World Labs的诞生与愿景
02:10 深度学习的历史与算力规模化:从CPU到GPU的飞跃
02:34 World Labs的首款产品Marble:三维世界的生成模型
03:44 师生情谊:李飞飞与Justin Johnson的缘起
04:00 AlexNet与ImageNet时代:AI从数据中心走向现实世界的转折点
05:15 世界模型的“AlexNet时刻”:数据与算力的爆发式增长
AI研究的生态与未来
06:44 开放科学与产业界:AI生态系统的多样性与挑战
08:01 商业压力下的学术研究:资源失衡与人才流失的担忧
10:57 学术界的新定位:探索“古怪想法”与基础理论
12:36 “古怪想法”的例子:下一代硬件与神经网络架构的结合
从像素到空间智能:技术演进之路
14:53 图像字幕生成:从Andrej到Justin的合作历程
15:46 讲述图像故事的梦想:从ImageNet到密集字幕生成
21:49 空间智能与语言智能的异同:像素与三维世界的本质区别
22:12 像素最大化:文本作为物理实体在现实世界的表现
23:25 AI对物理规律的“理解”:拟合模式与因果定律的差异
25:50 模型“理解”物理的重要性:取决于应用场景
Marble:空间智能的首次亮相
30:22 Marble的定位:空间智能愿景的第一步
31:14 Marble的功能:多模态输入、可编辑性与多样化输出
32:03 Marble的应用场景:游戏、视觉特效、电影与机器人训练
33:03 精确的摄像机控制:三维空间感的自然产物
34:05 Marble的原子单位:高斯splats与实时渲染
35:34 动力学与物理属性:未来Marble 2的潜力
37:26 Splats的密度与分辨率:移动设备与VR头显的限制
38:13 具身智能与机器人训练:Marble在模拟环境中的巨大潜力
40:29 设计领域:Marble在室内设计、厨房改造中的意外应用
空间智能的深层思考
41:29 空间智能的定义:在空间中推理、理解、移动和交互的能力
42:52 空间智能与语言智能的互补性:牛顿定律与具身经验
45:12 视觉被低估:人类感知与空间智能的进化优势
47:15 Winograd Schema Challenge:语言模型在空间智能上的局限
48:03 语言模型与空间智能的协同工作:多模态输入与通用模型
49:01 AI能否从零发现物理定律:地心说与牛顿定律的抽象层次
51:21 不同的学习范式:假设、实验与心智理论
52:34 序列到序列模型与Transformer:技术架构的演进
55:27 招募人才与未来展望
🌟 精彩内容
💡 深度学习的算力飞跃与世界模型
Justin Johnson指出,深度学习的发展史就是算力规模化的历史,从AlexNet到今天,显卡性能提升千倍,模型训练算力更是百万倍增长。这为处理海量视觉和空间数据,构建“世界模型”奠定了基础。
“我觉得深度学习的整个发展史,在某种意义上就是一部算力规模化的历史。”
🚀 Marble:空间智能的首次亮相
World Labs推出了首款产品Marble,一个能将文本或图片转化为可交互、可编辑三维世界的生成模型。它不仅是迈向空间智能宏大愿景的第一步,也已在游戏、电影、视觉特效、设计和机器人训练等领域展现出巨大潜力。
“Marble一方面是朝着空间智能这个宏大愿景迈进的世界模型,另一方面,我们也有意将它设计成一个大家今天就能实际使用的产品。”
🧠 空间智能与语言智能的互补
李飞飞教授强调,空间智能与语言智能是互补的。空间智能是让你在三维空间中进行推理、理解、移动和交互的能力,而人类的感知和空间智能是经过亿万年进化优化的,却常被低估。
“我确实认为空间智能与语言智能是互补的。我们如何定义空间智能呢?它是一种能让你在空间中进行推理、理解、移动和交互的能力。”
🌌 AI对物理规律的“理解”
嘉宾们探讨了AI模型对物理规律的“理解”是拟合模式还是因果定律。他们认为,目前的深度学习仍停留在拟合模式,难以像人类那样建立因果模型。模型能否“理解”物理,取决于其应用场景,在某些情况下,只要“看起来对”就足够。
“但没有任何迹象表明,那种隐式的建模能让你得到关于空间和动力学的因果定律。这正是今天的深度学习和人类智能开始分道扬镳的地方。因为从根本上说,深度学习仍然是在拟合模式。”
🔬 学术界的新角色:探索“古怪想法”
Justin Johnson认为,随着技术规模化,学术界不应再追求训练最大的模型,而应专注于尝试那些“稀奇古怪、全新的、疯狂的想法”,例如探索下一代硬件与神经网络架构的结合,以及大模型理论基础的理解。
“学术界的目标不应该是去训练最大的模型,追求最大规模,而应该是去尝试那些稀奇古怪、全新的、疯狂的想法,其中大部分可能都不会成功。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
评价...

空空如也

小宇宙热门评论...
yf_nKtk
4天前 广东
0
交流群怎么加
激进躺平
3天前 广东
0
这次的语音和内容好乱的感觉,没对上。
黎蔓蔓
1天前 浙江
0
56:14 transformer不是一个token序列的模型,是一个token集合的模型
yf_nKtk
4天前 广东
0
交流群怎么加
激进躺平
3天前 广东
0
这次的语音和内容好乱的感觉,没对上。
黎蔓蔓
1天前 浙江
0
56:14 transformer不是一个token序列的模型,是一个token集合的模型
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧