播客: WhynotTV Podcast - EarsOnMe - 精选播客，一听即合

播客简介

WhynotTV Podcast是一档深度、专业、硬核、超长时长（2小时-4小时）的AI科技视频播客——聚焦 AI/科技的深度播客，硬核拆解底层技术细节与商业逻辑，也关照人生智慧与个人成长哲思

创作者

何泰然 1 档播客

节目

Danfei Xu：人类数据，行为克隆，机器人的GPT-3，斯坦福，全栈机器人，EgoMimic，遥操作，UMI

WhynotTV Podcast

如果说大语言模型的跃迁，来自互联网沉淀下来的海量人类语言数据；那么在机器人世界里，是否也存在一种同样关键的数据？不是文字，不是图片，而是人拿起杯子、打开抽屉、穿过房间、和另一个人互动时，身体在物理世界里留下的痕迹。这个问题，正是我们这期节目最重要的关键词：human data，人类数据。本期嘉宾 Danfei Xu: Danfei 一直把自己定义成一个 roboticist，机器人学家，不是只在屏幕上训练模型的人，而是那个愿意坐在机器人旁边，看它动、看它坏、再把它修好的人。从早年折腾单片机小车，到斯坦福几乎从零搭建 robot learning 系统；从不被看好的 behavior cloning，到今天思考 human data 如何成为机器人学习的底层燃料，他的技术主线始终不是单点算法，而是一个完整全栈问题：机器人到底怎样才能从人类的动作、经验和互动中，学会进入真实世界？在这期节目里，我们会聊 Danfei Xu 如何走上机器人这条路，human data 会不会成为 robot learning 的 GPT moment的基石？人形机器人和人类数据究竟是谁成就谁？当机器人开始学习人的操作、人的身体、甚至人和人之间的互动，它的智能上限是什么？这里是 WhynotTV Podcast。现在，请和我一起，走进Danfei Xu的世界。 -- 00:02:00 - Danfei 为什么一直把自己定义为 roboticist 00:02:31 - 最早对机器人产生兴趣是在什么时候 00:03:27 - 小时候的 Danfei 是什么样的小孩 00:05:34 - 为什么高中时决定去美国读本科 00:06:18 - 一个人 DIY 申请美本的经历 00:08:44 - 从非主流选择到 Dickinson College 00:11:40 - 18岁前的经历如何塑造了对不确定性的适应力 00:12:51 - 本科为什么选择计算机和物理 00:13:47 - 大一大二 cold call 机器人公司做 research 00:16:19 - 在 SynTouch 做触觉传感器和 Shadow Hand 的经历 00:19:31 - 开车去 CMU 敲门做无人车 localization 00:21:05 - 本科时期的无人车数据采集与硬件系统 00:24:00 - 为什么 PhD 选择了当时“机器人荒漠”的 Stanford 00:26:34 - 2015年的 Stanford CS 和 deep learning 氛围 00:27:21 - PhD rotation 与早期 human data capture 的雏形 00:28:28 - 为什么放弃 scene graph 回到 robotics 00:30:18 - 2016-2017 年 robot learning 领域是什么样的 00:32:30 - One-shot imitation learning 与 Neural Task Programming 00:33:15 - 对 structure、compositionality 和 task motion planning 的反思 00:35:12 - 什么是 generative task and motion planning 00:36:12 - 在 DeepMind 暑研如何看到 behavior cloning actually works 00:38:57 - 什么是机器人里的 behavior cloning 00:40:16 - 为什么当时整个领域看不上 behavior cloning 00:42:27 - RSS 2020 behavior cloning paper 的前世今生 00:44:31 - 学术界如何评价真正 work 的系统性工作 00:46:14 - 为什么当时不相信 RL for robotics 能 scale up 00:47:33 - Behavior cloning 工作为什么当时没有引发范式转变 00:49:00 - 为什么没有继续做双臂和更大规模 teleoperation 00:49:45 - Behavior cloning 最难的为什么不是模型而是系统 00:50:57 - 回看 2020 年 teleoperation 方向的遗憾 00:52:53 - PhD 期间几段 internship 带来的认知变化 00:54:33 - 为什么 robotics 不能像自动驾驶一样被分工拆碎 00:54:59 - PhD 期间有哪些曾经相信、后来反思的方向 00:57:17 - 为什么最后决定去找教职 00:58:18 - 在资源密集时代，没有资源的学术自由还算自由吗 00:59:24 - 什么是 robot learning，它和传统 robotics 的区别是什么 01:01:24 - Robot learning 里最被高估和低估的东西是什么 01:01:53 - 什么是机器人数据，什么是人类数据 01:03:52 - EgoMimic 的起点：为什么相信第一人称 human data 01:04:00 - EgoMimic 的数据采集系统是怎么搭起来的 01:07:36 - 为什么为了 human data 自己搭了一个更像人的机器人 01:09:24 - 为什么从 teleoperation 转向 human data 01:11:40 - 从 ego video 里机器人到底能学到什么 01:15:20 - 为什么强调第一人称视频，而不是 YouTube 第三人称视频 01:17:09 - Robot learning 是否还缺一个类似 next-token prediction 的范式 01:18:21 - 从第一人称视频学打球、学技能的上限在哪里 01:20:17 - 为什么 SLAM / VIO 对 human data 如此重要 01:22:22 - 精确 action label 会不会只是过渡方案 01:24:07 - 今天 SLAM 的护城河在哪里 01:27:02 - 触觉 tactile 会在人类数据中扮演什么角色 01:30:16 - Human data 各种模态的重要性排序 01:32:27 - 什么是 UMI data，它到底是人类数据还是机器人数据 01:34:40 - Teleop、UMI 和纯 human data 的长期关系 01:36:35 - 五指灵巧手和人类数据 transfer 的关键瓶颈 01:38:21 - Human data 和人形机器人是一荣俱荣吗 01:38:50 - 机器人未来是 hardware lottery 还是 data lottery 01:39:46 - Human data 会不会把机器人锁死在人类水平 01:40:11 - 人和人的交互数据为什么是被低估的巨大空白 01:42:51 - 如果数据、算力、硬件无限，human data 的智能上限是什么 01:44:16 - 机器人如何获得类似互联网之于 LLM 的数据基础设施 01:47:22 - 要 behavior clone human 需要多少小时数据 01:48:17 - Human data 还没有统一标准，会不会造成巨大浪费 01:49:08 - 为什么“不经意的人类数据”比任务采集数据更重要 01:50:45 - Behavior clone 一个完整的人到底难在哪里 01:51:41 - Camera 会不会吞噬掉其他传感器模态 01:52:58 - 长期最有价值的 human data 会是什么 01:53:37 - Human data 采集会成为护城河还是 commodity 01:55:03 - EgoVerse 与 open collective efforts for academia 01:56:31 - Human data 的成功是否注定走向封闭商业化 01:57:30 - 机器人数据会不会像自动驾驶一样被主机厂绑定 01:58:31 - 如果 human data 没有成为 robot learning 的基石，可能错在哪里 01:59:39 - 为什么 full-stack robotics 如此重要 02:00:39 - Full stack 是什么都要自己造吗 02:01:25 - 一个 robotics 团队哪些东西必须 in-house 02:02:34 - Human data 会偏好什么样的 modeling method 02:03:26 - Human data 里的 System 1 / System 2 interface 会是什么 02:04:33 - 今天的机器人离 Betty the Crow 的智能还差多远 02:06:00 - 做教授后的 advising style 是什么 02:08:26 - 徐丹飞 lab 里坚持的价值观和文化 02:09:22 - 招学生最看重什么特质 02:09:36 - 学术界最吸引他的本质是什么 02:10:07 - 年轻 researcher 如何在工业界和学术界之间找到位置 02:11:10 - 2026年读 robotics PhD 比十年前更难还是更简单 02:12:30 - 如何判断一个方向只是看起来重要，还是会改变领域 02:13:47 - 徐丹飞的 career goal 与 robotics 的 GPT-3 moment 02:14:26 - 给年轻人的建议：学习研究者的 gradient，而不是只学结果 02:15:52 - 留给未来自己的时间胶囊 02:17:11 - 勇敢做自己想做的事：What's to lose?

137分钟

19k+

2个月前

翁家翌：OpenAI，GPT，强化学习，Infra，后训练，天授，tuixue，开源，CMU，清华

WhynotTV Podcast

本期嘉宾翁家翌。他在 2022 年加入 OpenAI，并且是 OpenAI 一系列核心模型背后的核心贡献者之一——从 GPT-3.5、GPT-4、再到 GPT-5，你能看到的那些关键跃迁里，都有他的身影；而他最主要的贡献，你可以先记住三个词：强化学习、post-training、infra。但对我来说，翁家翌不只是“把模型做得更强的人”。在成为 OpenAI 研究员之前，他就已经用开源和产品影响过无数人：把知识与资料公开、试图打破信息差；把做工具称作一种“慈善”——在他的价值观里，开源不是履历装饰，而是一种对世界的投入方式：追求的不是掌声，而是 impact。在这期节目里，我们会从翁家翌的童年经历聊起，走到他在清华与 CMU 的求学与成长，再到他在 2022 年加入 OpenAI 后的亲历：站在 AI 风暴中心的人，到底看见了什么？这里是 WhynotTV Podcast。现在请和我一起，走进翁家翌的世界。 ----------------------- 2:33 - 小时候的翁家翌是什么样的小孩 5:56 - 成长过程中的投资未来的意识 8:10 - 高中计算机竞赛与升学 16:02 - 在清华开源作业与信息差 19:23 - 在本科与强化学习结缘 28:00 - 在Yoshua Bengio组暑研做NLP的经历 30:38 - 对前ChatGPT时代的NLP and RL有什么反思 32:47 - 留学申请季受挫的经历 35:28 - 对固有评价体系的挣脱 41:08 - 天授Tianshou强化学习框架的前世今生 48:07 - tuixue online签证查询系统 49:54 - 追求影响力impact的底层逻辑是什么 56:21 - CMU读研与加入OpenAI的经历 59:46 - 和John Schulman的面试故事 61:54 - 为什么没有考虑读PhD 63:16 - 研究能力和工程能力谁更重要 66:31 - infra的重要性 69:28 - 还会鼓励今天的学生读AI PhD吗 73:13 - 什么是强化学习和post-training（后训练） 74:22 - 加入OpenAI的时候ChatGPT是主线吗 76:01 - 发布ChatGPT前可以想象这样大规模的成功吗 79:18 - 2022年加入OpenAI的初印象是什么 80:52 - OpenAI的人才密度与组织架构 84:09 - GPT强化学习Post-training的前世今生 85:10 - 在2022年做RLHF有什么关键的挑战与突破 87:01 - 大模型工业级RL infra 的挑战 92:08 - 未来5-10年大语言模型的挑战和瓶颈会是是什么 96:30 - 现在的预训练和后训练可以达到AGI吗 98:34 - OpenAI还Open吗 103:30 - OpenAI实现AGI使命的最大挑战是什么 104:02 - 内部视角看Sam Altman被开除的经历 106:37 - 如何看待OpenAI的人才流失 107:43 - OpenAI面对AI竞赛的内部视角 112:48 - 未来与宿命论 118:35 - 考虑过创业吗 120:01 - 希望十年后的自己是什么样的

122分钟

10w+

6个月前

陈天奇：机器学习系统，长期主义，初心，XGBoost，MXNet，TVM，MLC LLM，OctoML，CMU，UW

WhynotTV Podcast

当我问陈天奇，你会对十年前二十年前的陈天奇说些什么时，他沉默了近20秒说—— “可能要反过来，我需要过去的我对现在的我，现在的我对未来的我说，记住自己对自己的承诺，坚持自己的理想，往下走下去” 那一刻我被真正感动了——因为我真正看到一个真正的理想主义者，过去二十年机器学习的历史， XGBoost、MXNet、TVM、MLC都是不可磨灭的精彩印迹，而在这几个项目名背后，有一个共同的名字，他就是本期播客嘉宾陈天奇。过去 15 年，陈天奇把让机器学习模型更轻、更快、更易部署做成了一条清晰的技术主线。从最早的把树模型系统推到极致的XGBoost，到最早的深度学习框架之一 MXNet，再到开创深度学习编译领域的TVM，和今天希望把大模型跑上所有设备的MLC LLM。陈天奇在机器学习系统这条路上已经走了快 20 年——从陈天奇的视角看这 20 年的激荡会是什么样的风景？在这期播客，你会听到： 1. 我和陈天奇会把他的每一个开源项目都拆解清楚——他们为什么诞生、如何长成、在哪里拐弯。 2. 也会走进陈天奇的个人经历——年少如何与计算机相遇，高二的时候如何自学写编译器，在交大 ACM 班打下系统功底，在 UW 的科研突破，到最后同时走向创业和教职两条路。 3. 更重要的我们还聊到了陈天奇的底层价值观——长期主义如何落地，如何在不确定性中坚持敢失败的勇气和初心。在科研、创业、教职三条路都获得成功后，陈天奇在筹划着什么样的下一步？这里是WhynotTV Podcast——现在，请和我一起进入陈天奇的世界。 2:06 在童年时期对什么事物最感兴趣 8:38 有没有什么十八岁之前的经历对未来产生了深远影响 10:16 温和的性格是童年时期就养成的吗？ 12:08 上海交大ACM班的经历 14:33 本科ACM班教育对人生的影响 18:05 本科第一次接触机器学习科研时的挑战 20:09 手搓CUDA用深度学习尝试ImageNet 23:10 在2010年用GPU做深度学习是共识了吗 24:32 初生牛犊不怕虎做深度学习的经验教训 29:40 如何从失败的科研后反而变得不怕失败 32:16 研究视野的飞跃，20年后对研究视野的反思 39:01 来到UW读PhD的选择 41:08 XGBoost成功的关键原因：极致、社区、专注 46:14 为什么选择树方法？Carlos的严格要求 49:31 站在现在反思XGBoost当年对神经网络和深度学习的判断 53:02 MXNet的前世今生 60:03 MXNet背后的博士生团队协作 64:14 从MXNet的历史学到的经验教训 67:56 科研的风险与收益 71:40 TVM的前世今生——什么是机器学习编译 74:19 为什么做TVM这么有挑战性 77:17 选择做重要的事——做TVM的勇气 81:55 GPU/TPU/NPU的区别 83:05 初生牛犊不怕虎的勇气与初心 86:08 TVM的生态位，2025年面临的挑战与机会 90:26 机器学习系统的历史 95:03 机器学习系统的未来，挑战与机遇 96:13 MLC LLM——将大模型部署到所有设备 97:24 未来大模型的推理的格局分布——云vs端侧 101:11 AI模型的收敛趋同会持续下去吗？对机器学习系统来说意味着什么？ 105:38 因为资源受限，学术界应该去解决什么样的机器学习系统的研究问题？ 110:42 对开源的热情——如何做成功的开源项目？ 114:50 OctoML——创业的动机与故事 116:29 基于开源项目的创业的得失与优劣 119:15 OctoML的商业模式与转型 123:00 创业过程中的收获与教训 123:58考虑过当CEO吗？当技术领袖的所需要的自我革新 126:18 创业被NVIDIA收购是符合预期的退出方式吗？ 128:19 技术创业必须的自我革新 130:23 为什么决定要当教授？ 130:54 一线经验的重要性——为什么当教授了还要写那么多代码？ 135:03 如何做到高效的时间分配与产出？ 136:28 这个时代的快节奏的机器学习系统研究——我们还能慢下来吗？ 138:31 如何面对AI研究的新挑战？ 139:52 现在陈天奇作为教授的风格是什么样的——如何指导学生？ 141:06 工业界工作vs学术界PhD 142:19 实事求是问题导向的研究风格 143:22 对长期主义的感悟 146:12 面临人生选择的智慧 148:41 未来的陈天奇还想做什么——失败与初心 152:58 AGI需要什么样的机器学习系统 154:23 未来AI的格局会是巨头统治还是百花齐放 155:03 会对20年前10年前的陈天奇说什么？ 155:52 对成功和幸福有什么新的感悟 157:51 会看这二十年的旅途——你最后想说些什么？

160分钟

43k+

10个月前

胡渊鸣：Meshy AI，太极，MIT，清华姚班，图形学，物理仿真模拟，开源，商业化，勇气，智慧

WhynotTV Podcast

今年四月我读了一篇非常打动我的Meshy AI CEO胡渊鸣写的知乎文章《当CEO重读PhD：论勇气与智慧》，当时的我就在憧憬要是能和胡渊鸣畅谈一个下午会是多么难忘的体验…… 没想到四个月后真的实现了！我非常非常非常享受和胡渊鸣做这期播客，3小时40分钟的素材，我剪辑过程中反复把素材过了很多遍，每一遍听都有更新和更深的收获，我很激动也很感谢渊鸣——我们录制出了一期这么精彩的内容！我们以渊鸣的的人生经历为引子——童年时期开始写物理模拟器和游戏，清华姚班和MIT的求学经历，太极项目的前世今生和太极2.0，Meshy的艰难商业转型到现在用户超400万，年营收增长超10倍，所有经历本质都是在反射渊鸣对科技、商业、世界、人生的本质思考，强烈推荐！千言万语一句话——这个世界需要更多胡渊鸣！ 00:00 引言 01:31 童年，游戏，与模拟世界 13:00 清华姚班经历 20:37 MIT PhD经历 29:04 四个重要的人才特质 37:57 如果重读PhD会做的四个改变 43:54 计算机图形学与太极编程语言 55:25 对开源的看法 60:00 物理仿真与机器人 76:28 太极2.0与AGI 87:32 Meshy与3D生成 101:18 太极商业化中的放弃与反思 119:23 CEO，创业选择与商业赛道 141:12 尊重事实，公司的基因和文化 156:19 勇气、智慧、影响力、失败、人生

184分钟

32k+

11个月前