Danfei Xu:人类数据,行为克隆,机器人的GPT-3,斯坦福,全栈机器人,EgoMimic,遥操作,UMI
WhynotTV Podcast

Danfei Xu:人类数据,行为克隆,机器人的GPT-3,斯坦福,全栈机器人,EgoMimic,遥操作,UMI

137分钟 6,800 1周前
节目简介
来源:小宇宙
如果说大语言模型的跃迁,来自互联网沉淀下来的海量人类语言数据;那么在机器人世界里,是否也存在一种同样关键的数据?不是文字,不是图片,而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时,身体在物理世界里留下的痕迹。这个问题,正是我们这期节目最重要的关键词:human data,人类数据。
本期嘉宾 Danfei Xu:
Danfei 一直把自己定义成一个 roboticist,机器人学家,不是只在屏幕上训练模型的人,而是那个愿意坐在机器人旁边,看它动、看它坏、再把它修好的人。从早年折腾单片机小车,到斯坦福几乎从零搭建 robot learning 系统;从不被看好的 behavior cloning,到今天思考 human data 如何成为机器人学习的底层燃料,他的技术主线始终不是单点算法,而是一个完整全栈问题:机器人到底怎样才能从人类的动作、经验和互动中,学会进入真实世界?
在这期节目里,我们会聊 Danfei Xu 如何走上机器人这条路,human data 会不会成为 robot learning 的 GPT moment的基石?人形机器人和人类数据究竟是谁成就谁?当机器人开始学习人的操作、人的身体、甚至人和人之间的互动,它的智能上限是什么?
这里是 WhynotTV Podcast。现在,请和我一起,走进Danfei Xu的世界。
--
00:02:00 - Danfei 为什么一直把自己定义为 roboticist
00:02:31 - 最早对机器人产生兴趣是在什么时候
00:03:27 - 小时候的 Danfei 是什么样的小孩
00:05:34 - 为什么高中时决定去美国读本科
00:06:18 - 一个人 DIY 申请美本的经历
00:08:44 - 从非主流选择到 Dickinson College
00:11:40 - 18岁前的经历如何塑造了对不确定性的适应力
00:12:51 - 本科为什么选择计算机和物理
00:13:47 - 大一大二 cold call 机器人公司做 research
00:16:19 - 在 SynTouch 做触觉传感器和 Shadow Hand 的经历
00:19:31 - 开车去 CMU 敲门做无人车 localization
00:21:05 - 本科时期的无人车数据采集与硬件系统
00:24:00 - 为什么 PhD 选择了当时“机器人荒漠”的 Stanford
00:26:34 - 2015年的 Stanford CS 和 deep learning 氛围
00:27:21 - PhD rotation 与早期 human data capture 的雏形
00:28:28 - 为什么放弃 scene graph 回到 robotics
00:30:18 - 2016-2017 年 robot learning 领域是什么样的
00:32:30 - One-shot imitation learning 与 Neural Task Programming
00:33:15 - 对 structure、compositionality 和 task motion planning 的反思
00:35:12 - 什么是 generative task and motion planning
00:36:12 - 在 DeepMind 暑研如何看到 behavior cloning actually works
00:38:57 - 什么是机器人里的 behavior cloning
00:40:16 - 为什么当时整个领域看不上 behavior cloning
00:42:27 - RSS 2020 behavior cloning paper 的前世今生
00:44:31 - 学术界如何评价真正 work 的系统性工作
00:46:14 - 为什么当时不相信 RL for robotics 能 scale up
00:47:33 - Behavior cloning 工作为什么当时没有引发范式转变
00:49:00 - 为什么没有继续做双臂和更大规模 teleoperation
00:49:45 - Behavior cloning 最难的为什么不是模型而是系统
00:50:57 - 回看 2020 年 teleoperation 方向的遗憾
00:52:53 - PhD 期间几段 internship 带来的认知变化
00:54:33 - 为什么 robotics 不能像自动驾驶一样被分工拆碎
00:54:59 - PhD 期间有哪些曾经相信、后来反思的方向
00:57:17 - 为什么最后决定去找教职
00:58:18 - 在资源密集时代,没有资源的学术自由还算自由吗
00:59:24 - 什么是 robot learning,它和传统 robotics 的区别是什么
01:01:24 - Robot learning 里最被高估和低估的东西是什么
01:01:53 - 什么是机器人数据,什么是人类数据
01:03:52 - EgoMimic 的起点:为什么相信第一人称 human data
01:04:00 - EgoMimic 的数据采集系统是怎么搭起来的
01:07:36 - 为什么为了 human data 自己搭了一个更像人的机器人
01:09:24 - 为什么从 teleoperation 转向 human data
01:11:40 - 从 ego video 里机器人到底能学到什么
01:15:20 - 为什么强调第一人称视频,而不是 YouTube 第三人称视频
01:17:09 - Robot learning 是否还缺一个类似 next-token prediction 的范式
01:18:21 - 从第一人称视频学打球、学技能的上限在哪里
01:20:17 - 为什么 SLAM / VIO 对 human data 如此重要
01:22:22 - 精确 action label 会不会只是过渡方案
01:24:07 - 今天 SLAM 的护城河在哪里
01:27:02 - 触觉 tactile 会在人类数据中扮演什么角色
01:30:16 - Human data 各种模态的重要性排序
01:32:27 - 什么是 UMI data,它到底是人类数据还是机器人数据
01:34:40 - Teleop、UMI 和纯 human data 的长期关系
01:36:35 - 五指灵巧手和人类数据 transfer 的关键瓶颈
01:38:21 - Human data 和人形机器人是一荣俱荣吗
01:38:50 - 机器人未来是 hardware lottery 还是 data lottery
01:39:46 - Human data 会不会把机器人锁死在人类水平
01:40:11 - 人和人的交互数据为什么是被低估的巨大空白
01:42:51 - 如果数据、算力、硬件无限,human data 的智能上限是什么
01:44:16 - 机器人如何获得类似互联网之于 LLM 的数据基础设施
01:47:22 - 要 behavior clone human 需要多少小时数据
01:48:17 - Human data 还没有统一标准,会不会造成巨大浪费
01:49:08 - 为什么“不经意的人类数据”比任务采集数据更重要
01:50:45 - Behavior clone 一个完整的人到底难在哪里
01:51:41 - Camera 会不会吞噬掉其他传感器模态
01:52:58 - 长期最有价值的 human data 会是什么
01:53:37 - Human data 采集会成为护城河还是 commodity
01:55:03 - EgoVerse 与 open collective efforts for academia
01:56:31 - Human data 的成功是否注定走向封闭商业化
01:57:30 - 机器人数据会不会像自动驾驶一样被主机厂绑定
01:58:31 - 如果 human data 没有成为 robot learning 的基石,可能错在哪里
01:59:39 - 为什么 full-stack robotics 如此重要
02:00:39 - Full stack 是什么都要自己造吗
02:01:25 - 一个 robotics 团队哪些东西必须 in-house
02:02:34 - Human data 会偏好什么样的 modeling method
02:03:26 - Human data 里的 System 1 / System 2 interface 会是什么
02:04:33 - 今天的机器人离 Betty the Crow 的智能还差多远
02:06:00 - 做教授后的 advising style 是什么
02:08:26 - 徐丹飞 lab 里坚持的价值观和文化
02:09:22 - 招学生最看重什么特质
02:09:36 - 学术界最吸引他的本质是什么
02:10:07 - 年轻 researcher 如何在工业界和学术界之间找到位置
02:11:10 - 2026年读 robotics PhD 比十年前更难还是更简单
02:12:30 - 如何判断一个方向只是看起来重要,还是会改变领域
02:13:47 - 徐丹飞的 career goal 与 robotics 的 GPT-3 moment
02:14:26 - 给年轻人的建议:学习研究者的 gradient,而不是只学结果
02:15:52 - 留给未来自己的时间胶囊
02:17:11 - 勇敢做自己想做的事:What's to lose?

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧