理解世界模型:机器人忙着学跳舞,人活成一段段文字
Orpheus微见

理解世界模型:机器人忙着学跳舞,人活成一段段文字

86分钟 3,148 1周前
节目简介
来源:小宇宙
大语言模型就是死路一条?
至少两位图灵奖得主Richard Sutton和Yann LeCun都这么认为。
我认为这类争议的真正核心,并不是「大语言模型到底行不行」,而是关于我们自己,到底是怎么去理解和接触这个世界的。
所以它最终还是会去到一个哲学问题:如果只需要语言,就能获得真正的智能,就能通向未来,那我们这副肉体和四肢还必要吗?
而那些美味、触觉
每一次温热的拥抱和接吻又有什么意义?
这,可能才是世界模型真正开始的地方。
社交媒体:公众号 / 小红书 / Bilibili / 微博
世界不止语言,世界模型也一样
▶ TIMELINE
00:00 一 / 世界不只有语言
* 如果你成为造物主,你会如何重建一个世界?
* 世界模型的核心工作:模拟、学习、预测、评估
* 今天的世界模型,是一种愿景而非单一的技术
* 4岁小孩的经历,就能超越所有训练文本
11:02 二 / 人、动物、AI如何理解世界
* 人工智能是一门仿生学?
* 强化学习与奖惩机制
* 为什么大于43℃人就觉得烫
* 卷积神经网络等仿生设计
* AI自行进化出「人脑模式」
* 世界本身就存在某些关于智能的最优解
* 持续上亿年的具身互动带来生物智能
22:45 三 / 表象世界
* 从预测像素到评估行动
* 不是所有视频模型都是世界模型
* 视频模型作为世界模型的优势和局限
33:26 四 / 空间世界
* 李飞飞的「三个一致性」
* 让AI理解空间关系、移动与物体恒常性
* 已经商业化的「世界模型」
42:14 五 / 状态世界
* 为什么一个十几岁的孩子,20个小时就能学会开车,但几百万小时的自动驾驶数据,还是没产生质变?
* 提炼当前状态,预测下一个状态,而非画面或文字
* 什么是状态?什么是好的表征?
56:24 六 / 行动世界
* 为什么GPT爆发让自动驾驶和机器人也更强了?
* 快系统、慢系统
* 行动是世界模型的最终目的
* *其他类似世界模型的项目:斯坦福小镇、大气建模、蛋白质与AI的价值观
01:13:17 七 / 神话和技术
* 从史前开始,人类就一直在思考如何再造一个更好的世界
* 从脑电波到元宇宙,人的归宿是虚拟?
* 世界模型不是让人进去,而是让机器智能出来,不是让人向AI对齐,而是让AI向人对齐
* 如果你真的想要一个更好的世界,就去世界中做你认为好的事情
01:20:55 结尾 / 关于我的工作和职业、对技术传播的思考
▶ 提及的部分专有名词
Richard Sutton / Yann LeCun / 维特根斯坦 / Sora / DeepMind / Genie / Runway / Seedance / 可灵 / 李飞飞 / World Labs / JEPA Joint Embedding Predictive Architecture / NVIDIA / Cosmos / Scaling Law / 汉斯·莫拉维克 / The Bitter Lesson / UCL / Edvard Moser / Gemini Omni / Jim Fan 范麟熙 / VLA / DreamDojo / LingBot-World / 智元机器人 / GE-sim 2.0 / Marble / 腾讯混元世界 / 埃拉托色尼 / 表征 / AMI Advanced Machine Intelligence / LeWorldModel / RT-2 / FSD V12 / DYNA / Optimus / Wayve / GAIA / Physical Intelligence / Pi-0.7 / Microsoft Aurora / Demis Hassabis /《The Man Who Awoke》/《黑客帝国》/《黑镜》/ Jürgen Schmidhuber
▶ 参考资料及延展阅读
* Richard Sutton thinks LLMs are a dead end
* Yann LeCun: A Path Towards Autonomous Machine Intelligence
* 李飞飞:From Words to Worlds: Spatial Intelligence is AI’s Next Frontier
* 体验机器:我们的大脑如何预测和塑造现实
* 预测算法:具身智能如何应对不确定性
* LeWorldModel: Stable End-to-End JEPA from Pixels
* 谷歌DeepMind自行进化出人脑模式,新型AI 算法具备超越人类的方向感 (2018)
* π0.7发布,VLA押出了机器人的GPT-3时刻
* Jürgen Schmidhuber: Annotated History of Modern AI and Deep Learning
▶ 音乐
* You Can Prove Me Wrong - Arabs in Aspic
* Computer World Pt.2 - Kraftwerk
* Past and Language - Toe
▶ 一起见微知著
* 听友群:添加微信 KingCrimson_ 备注「微见」即可拉群
* 社交媒体:公众号 / 小红书 / Bilibili / 微博
* 欢迎收听回声场ECHOCAST其他节目:在场证明 | Why for Jazz | 别想好 | 城市余数Cityremainder | 声音切片

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧