节目列表: ReSpark - EarsOnMe - 精选播客，一听即合

ReSpark
节目列表

EP13专访Yilun Du：基于EBM和视频生成的具身智能研究路线

本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者（Planning with Diffusion），也是第一个提出通过视频预测来做机器人轨迹预测的学者（UniPi）。和Du Yilun博士的交流让我自己受益匪浅，对于和我一样，最近一直在思考VLA是否可以真的把通用机器人做work的人，请你一定要听听这期播客，看看这期文字整理。 Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授，同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位，导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前，他也在 MIT 获得本科学位，并曾在 OpenAI 担任研究员，在 FAIR和Google DeepMind 担任实习生与访问研究员，并曾获得国际生物奥林匹克金牌。他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体，以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型，从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下，生成式 AI 面临的关键挑战包括缺乏充足的建模数据，以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战，具体方法是使用能量地形学习（Energy-Based Models, EBMs）这一思想，以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。以下为本文目录 01:00 自我介绍 02:15 什么是能量图谱？ 03:30 学习可组合的能量图谱来构建可泛化系统 07:00 进一步解释能量模型 09:10 Diffusion Model和能量图谱模型的关系 10:20 Diffusion Model和机器人的结合 12:20 为什么会坚持EBM这个方向？ 13:30 为什么特别关注可组合性和泛化能力 16:10 怎么理解可组合性？组合的是什么？ 20:20 这条路线的受关注度怎么样？ 22:10看好具身哪个方向？ 23:00 目前基于视频的方法有哪些？关于智能的理解 26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线 28:00 你对“智能”的理解？ 29:30 语言和图像的智能实现了吗？ 30:30 通用机器人这个AGI的终局远吗？关于具身路线的探讨 32:00 目前具身的路线哪些可以落地？ 35:00 怎么看端到端VLA？ 39:00 为什么不看好RL？ 43:00 你认为目前通用机器人最大的问题是什么？ 46:00 为什么具身当下的研究没有新意？ 48:00 怎么对比语言和从物理载体中获得的智能？ 53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨 56:00 对于新进入这个领域的同学的建议 References： Du Yilun个人主页：yilundu.github.io

66分钟

99+

16小时前

EP13专访Yilun Du：基于EBM和视频生成的具身智能研究路线

推荐播单

加入我们的 Discord

扫描微信二维码

播放列表