EP13专访Yilun Du:基于EBM和视频生成的具身智能研究路线

ReSpark

本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者(Planning with Diffusion),也是第一个提出通过视频预测来做机器人轨迹预测的学者(UniPi)。 和Du Yilun博士的交流让我自己受益匪浅,对于和我一样,最近一直在思考VLA是否可以真的把通用机器人做work的人,请你一定要听听这期播客,看看这期文字整理。 Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授,同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位,导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前,他也在 MIT 获得本科学位,并曾在 OpenAI 担任研究员,在 FAIR和Google DeepMind 担任实习生与访问研究员,并曾获得国际生物奥林匹克金牌。 他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体,以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型,从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下,生成式 AI 面临的关键挑战包括缺乏充足的建模数据,以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战,具体方法是使用能量地形学习(Energy-Based Models, EBMs)这一思想,以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。 以下为本文目录 01:00 自我介绍 02:15 什么是能量图谱? 03:30 学习可组合的能量图谱来构建可泛化系统 07:00 进一步解释能量模型 09:10 Diffusion Model和能量图谱模型的关系 10:20 Diffusion Model和机器人的结合 12:20 为什么会坚持EBM这个方向? 13:30 为什么特别关注可组合性和泛化能力 16:10 怎么理解可组合性?组合的是什么? 20:20 这条路线的受关注度怎么样? 22:10看好具身哪个方向? 23:00 目前基于视频的方法有哪些?关于智能的理解 26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线 28:00 你对“智能”的理解? 29:30 语言和图像的智能实现了吗? 30:30 通用机器人这个AGI的终局远吗?关于具身路线的探讨 32:00 目前具身的路线哪些可以落地? 35:00 怎么看端到端VLA? 39:00 为什么不看好RL? 43:00 你认为目前通用机器人最大的问题是什么? 46:00 为什么具身当下的研究没有新意? 48:00 怎么对比语言和从物理载体中获得的智能? 53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨 56:00 对于新进入这个领域的同学的建议 References: Du Yilun个人主页:yilundu.github.io

66分钟
99+
16小时前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧