ReSpark - 节目列表

3个月前

EP18 专访Danfei Xu：人类数据是伪装成另一种形式的机器人数据

关于Human Data，我们在2025年用了大半年的时间去展现以及科普一些最前沿的学术工作，集锦可以参考总结篇：Human Data—The “Key” to Robot Data。去年的工作汇总更多的是在全身运动控制，在进入2026年，随着EgoScale等工作发布，我们看到了人类数据在机器人操作上的可能性。在EgoScale发布的同期，一篇名为“To Summon a Sensorimotor Ghost”博文吸引了我的关注，我也非常荣幸能够邀请到这篇博文的作者Danfei来做这次专访。Danfei Xu也是我在2025年AI+Robotics华人图谱关注到的学者，他在AI机器人领域有很多出色工作，尤其近两年在如何利用人类数据上有很多探索，比如EgoMimic，EgoBridge，InMimic，EMMA以及EgoScale。 Danfei Xu是Georgia Tech的助理教授，同时也参与NVIDIA Research的部分研究工作。他的研究范围比较广，从较为传统的机器人问题，比如manipulation planning和motion planning，到一些较新的方向，例如imitation learning、learning-based planning以及robot foundation models等。我们这次访谈主要聚焦在一个最近比较受关注的问题：机器人是否能够从人类数据中学习，以及能否从这些人类数据中提取出对机器人有用的知识。第一部分为什么会关注Human Data 1. 基于人类数据的分类第二部分关于Human data的建模和采集 2. 不同技术路线对应的人类数据？ 3. 如何获取多模态的人体数据？ 4. 视觉信息是否应该带深度？ 5. AI眼镜公司有机会替代Aria吗？ 6. 可穿戴眼镜普及的推动效果？ 7. 第一视角和第三视角哪种视角更有用？ 8. 第一视角的数据可以是RGB吗？ 9. 真正可以scale机器人的human data的收集方式 10. 机器人数据的收集需要等穿戴设备先普及吗？ 11. 人体局部和全身数据怎么协同？ 12. 全身和局部数据采集能放在同一个设备里？第三部分关于人类行为的建模 13. 怎么对人类行为进行建模？ 14. 人类行为建模有哪些尝试？ 15. 怎么看真机数据采集？ 16. 近期的几个工作介绍 17. human data使用的takeaways是什么？ 18. 怎么看现在操作上的sys2和sys1？ 19. 如何将System 2围绕长期目标实现？ 20. 世界模型会是System 2 的基础架构？第四部分关于Human-robot transfer 21. 怎么解决Human-robot transfer问题？ 22. 真正的通用机器人是否遥远？ 23. 通用机器人什么时候有雏形？

67分钟

3个月前

EP17 专访高阳：具身智能不需要“干净的”数据

机器人数据的问题一直是具身智能最重要的话题，我们在之前有两个系列来探讨机器人数据2024年的EP10 Robot Data第一季访谈总结和2025年的总结篇：Human Data—The “Key” to Robot Data，最近趁着Spirit v1.5开源，我也和许久没有交流的高阳老师一起聊了聊数据的话题，关于机器人数据的训练，他有一个非常有趣的观点：抛弃大多数、甚至几乎所有用于保证“干净数据”的规则，只保留一条原则——做一些有用的事情。高阳现在是千寻智能的联合创始人，同时也是清华大学交叉信息研究院的助理教授。他本科毕业于清华大学计算机系，博士毕业于UC Berkeley。博士导师是Vision领域的大牛Trevor Darrell，读博期间和Sergey Levine合作开始强化学习方面的探索，博后跟随Pieter Abbeel做强化学习，合作的导师都是RL+Robotics这个领域的大牛。研究方向为计算机视觉和机器人的结合领域，教会机器人通过“看”去操纵周围的事物。我们之前有两期论文报道采访过高阳EP1对话高阳、汶川：如何利用互联网人类视频训练机器人大模型（ATM—RSS 2024满分论文）对话高阳：具身大模型框架ViLa+CoPa。 1. 具身智能路线的共识与非共识 3. Spirit v1.5的数据特色 2. Spirit v1.5开源具身模型 4. Spirit v1.5——Clean Data Is the Enemy of Great Robot Foundation Models https://www.spirit-ai.com/en/blog/spirit-v1-5

42分钟

1k+

5个月前

EP16 对话戴若犁：动作捕捉技术与人体数据——诺亦腾机器人的数据故事（下）

Human Data系列最后一期访谈，重磅嘉宾——诺亦腾机器人创始人戴若犁博士。如果你是石麻笔记的铁粉，请一定听一听这期播客。 1. 自我介绍 2. 几个工作和诺亦腾机器人的关系 3. 动捕设备科普 4. 不同的动捕方案有什么区别 5. 不同动捕方案如何选择 6. 为什么选择诺亦腾机器人的设备和数据？ 7. 短期内诺亦腾机器人能给社区带来什么? 8. 人才需求 9. 业务合作 Show Notes等博主有空再慢慢完善，详细可参考文字内容，公众号搜索石麻笔记（估计11月15日前后发布）。

63分钟

7个月前

EP15 对话韩磊：强化学习与动捕数据——诺亦腾机器人的数据故事（上）

熟悉石麻笔记的朋友们一定看过2023年的一篇文章AI+Robotics华人图谱。在 Human Data 系列的最后两期采访中，我非常荣幸地邀请到曾经出现在过这个图谱中的一位学者——韩磊博士进行深入对谈。韩磊博士目前担任诺亦腾机器人（Noitom Robotics）联合创始人兼首席科学家。此前，他在腾讯 Robotics X 实验室工作六年，担任具身智能负责人兼首席研究科学家。在此之前，他曾在腾讯人工智能实验室（Tencent AI Lab）担任高级研究科学家。在加入腾讯之前，韩磊曾任职于美国密西西比州立大学（Mississippi State University）基础科学系，担任助理研究教授（Assistant Research Professor）。他在北京大学获得博士学位，师从谢昆青教授，并先后在香港浸会大学（与张宇教授）和美国罗格斯大学（与张桐教授）从事博士后研究工作。他的研究兴趣在大规模统计机器学习、强化学习、优化、多任务学习以及它们在机器人学、游戏、自然语言处理、计算机视觉和生物信息学等领域的应用”在这次正式访谈之前，我曾经和韩磊博士多次请教过强化学习与机器人结合的一些问题，非常欣赏他对技术思考的深度以及广度。这次访谈，我和韩磊博士请教了关于以Human data为代表的机器人数据问题，以及目前机器人算法路径等问题，非常非常推荐你也一起听一听，或读一读。 1. 自我介绍 2. 怎么看强化学习近些年在各领域的发展 3. 创业为什么会选择机器人数据？ 4. 如果视频数据有突破动捕数据还重要吗？ 5. 3D模态对视频数据的重要性 6. 诺亦腾机器人给社区的贡献 7. 动捕数据和方案对比 8. 动捕+RL在解决操作任务上的机会 Show Notes等博主有空再慢慢完善，详细可参考文字内容，公众号搜索石麻笔记（估计11月15日前后发布）。

55分钟

7个月前

EP13专访Yilun Du：基于EBM和视频生成的具身智能研究路线

本期访谈的嘉宾Du Yilun。他是第一个将Diffusion Model应用于机器人动作生成的学者（Planning with Diffusion），也是第一个提出通过视频预测来做机器人轨迹预测的学者（UniPi）。和Du Yilun博士的交流让我自己受益匪浅，对于和我一样，最近一直在思考VLA是否可以真的把通用机器人做work的人，请你一定要听听这期播客，看看这期文字整理。 Du Yilun目前是哈佛大学 Kempner Institute 及计算机科学系的助理教授，同时也是 Google DeepMind 的高级研究科学家。他于MIT电气工程与计算机科学系获得博士学位，导师是 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授以及 Joshua B. Tenenbaum 教授。此前，他也在 MIT 获得本科学位，并曾在 OpenAI 担任研究员，在 FAIR和Google DeepMind 担任实习生与访问研究员，并曾获得国际生物奥林匹克金牌。他的研究聚焦于生成模型、决策制定、机器人学习、具身智能体，以及这些工具在科学领域中的应用。他的研究目标是发展能在物理世界中自主行动的智能具身体。主要致力于利用生成式 AI 建立世界模型，从而将系统化的规划与迭代式推理引入到学习型智能体中。在这一背景下，生成式 AI 面临的关键挑战包括缺乏充足的建模数据，以及模型在未见过情境中的泛化能力。他通过构建可组合的生成模型来应对这一挑战，具体方法是使用能量地形学习（Energy-Based Models, EBMs）这一思想，以实现超越有限数据范围的泛化能力。他的早期 EBM 研究也促成了 2020 年扩散模型的发展。以下为本文目录 01:00 自我介绍 02:15 什么是能量图谱？ 03:30 学习可组合的能量图谱来构建可泛化系统 07:00 进一步解释能量模型 09:10 Diffusion Model和能量图谱模型的关系 10:20 Diffusion Model和机器人的结合 12:20 为什么会坚持EBM这个方向？ 13:30 为什么特别关注可组合性和泛化能力 16:10 怎么理解可组合性？组合的是什么？ 20:20 这条路线的受关注度怎么样？ 22:10看好具身哪个方向？ 23:00 目前基于视频的方法有哪些？关于智能的理解 26:00 比较重要的研究工作基于可组合能量图谱的具身智能路线 28:00 你对“智能”的理解？ 29:30 语言和图像的智能实现了吗？ 30:30 通用机器人这个AGI的终局远吗？关于具身路线的探讨 32:00 目前具身的路线哪些可以落地？ 35:00 怎么看端到端VLA？ 39:00 为什么不看好RL？ 43:00 你认为目前通用机器人最大的问题是什么？ 46:00 为什么具身当下的研究没有新意？ 48:00 怎么对比语言和从物理载体中获得的智能？ 53:00 具身方向未来会有突破的环节关于通用机器人研究方向的探讨 56:00 对于新进入这个领域的同学的建议 References： Du Yilun个人主页：yilundu.github.io

66分钟

1k+

11个月前

EP12专访罗正宜：解密PHC——人形机器人通用控制器

人形机器人通用控制器系列，继前两期对Xue Bin Peng和李钟毓的采访，这期播客我邀请到了人形机器人通用控制器领域家喻户晓的PHC这篇论文的作者罗正宜博士。罗正宜（Zhengyi Luo）博士毕业于CMU，他的导师是 Kris Kitani 教授。在此之前，他于2019年在宾夕法尼亚大学获得了本科学位，并曾在 Kostas Daniilidis 教授的指导下开展研究工作。罗正宜博士的的研究兴趣主要集中在视觉、学习与机器人技术的交叉领域。主要研究方向包括人体姿态估计、人-物交互建模、人类运动建模等。这期节目的文字稿可以在微信公众号搜索“石麻笔记”查看。因为主播副业能挤出时间来持续更新已经不易，剪辑略微粗糙，听众多多包涵。文章涉及的论文及嘉宾社交媒体： PHC：www.zhengyiluo.com OmniGrasp：www.zhengyiluo.com PULSE：www.zhengyiluo.com PDC：www.zhengyiluo.com OmniH2O：omni.human2humanoid.com HOVER：hover-versatile-humanoid.github.io ASAP：agile.human2humanoid.com 罗正宜社交媒体： X/Twitter: @zhengyiluo LinkedIn: Zhengyi (Zen) Luo Website: www.zhengyiluo.com Google Scholar: scholar.google.com 小红书：正合时宜

67分钟

EP11对话吴翼：用打游戏的方式做AI Agent

强化学习早期的出圈是在星际争霸2击败职业玩家的AlphaStar，是Open AI击败Dota 2世界冠军战队OG的OpenAI Five，更是DeepMind击败李世石的AlphaGo，但由于在泛化性上的不足，学术与资本的关注度逐渐转冷，直到ChatGPT的出现，让人们发现强化学习与大模型结合所迸发出的泛化能力，强化学习一夜之间重新回到大众视野。在当前的Agent时代，Agent在替人们计划跨国旅行的行程、自动生成制作精良的网页的时候，不可避免的与形同黑箱的环境进行长时间且大量的交互，这种对数据的异步处理方式，越来越接近当年用AI打游戏的范式。今天有幸邀请到清华大学交叉信息学院的助理教授吴翼老师，跟我们分享他在用强化学习探索Agent道路上的心得体会。出生于1992年的吴翼，在高三暑假代表中国参加国际信息奥林匹克竞赛，随后被清华姚班录取。2014年本科毕业后，他前往加州大学伯克利分校攻读人工智能方向，博士第一篇深度学习论文就获得了NIPS当年的最佳论文奖。博土毕业在回国任清华交叉信息学院的助理教授前，他加入了OpenAI工作了一年半，参与的游戏项目捉迷藏，是OpenAI 历史上视频点击率最高的视频。2023年，他创立边塞科技，用强化学习为更多人创造更好的智能体验。 2024年底，他受邀帮助蚂蚁集团成立了强化学习实验室。关于吴翼老师参与的Open AI捉迷藏项目：Emergent Tool Use from Multi-Agent Autocurricula (ICLR 2020, Spotlight)（openai.com）本期节目就来听一听吴老师对于当下AI agent智能体发展的看法，吴老师也会提到他们正在构建的开源强化学习（决策模型与服务）平台Areal，这个平台可以支持各种类型的agent的学习和开发，他们团队也已经完成部分agent应用开发，甚至也有应用到具身智能领域的一些有趣的agent。希望今天的内容对于我们各行各业的普通从业者也能带来不同的启发。本期节目由嘉宾主持Tim来Host，节目制作由晨歌完成。播客文字整理可以在ReSpark同名公众号《ReSpark》上查看（文字版可能发布时间滞后）时间轴： Part 1：关于智能体与AI Agent 05:34 当我们谈论Agent，我们究竟在谈论什么？ 15:55 竞争会驱使Agent向哪里发展？ 24:44 创业公司的壁垒在于niche market与唯快不破 35:59 从AlphaGo到GPT o1，强化学习已经走过完整的技术周期 41:32 用打游戏的方式做AI Agent 54:29 用数据和工程迭代解决大模型和Agent的记忆问题 Part 2：AI的热点话题探讨 1:06:56 AGI到底离我们还有多远 1:15:33 AI self-evolution是不是炒作？ 1:24:57 Diffusion vs. Autoregression，谁是下一代的版本答案？ 1:31:03 世界模型与空间智能的发展 1:45:34 今天的具身智能到了什么阶段？与Agent怎么结合？ Part 3：伯克利求学经历与吴翼眼中的Pieter Abbeel 1:51:32 与Stuart Russell和Pieter Abbeel两位大牛合作，从他们身上看到了什么？ 1:57:49 普通人如何抓住Agent浪潮的机会

125分钟

2k+

EP10对话李钟毓：如何构建足式机器人的“小脑”

最近一段时间，我很喜欢做一些人形机器人的全身运控的科普，最近也采访了几位在这个方向上有代表性工作的一些学者。在上一篇访谈中我们提到，Peng Xue Bin是从动画（animation）的角度切入人形机器人运控专访Xue Bin(Jason) Peng：探索人形机器人全身运控的通用控制器。本期的采访嘉宾李钟毓则是从基于模型的控制理论来切入人形机器人运控，他用六年的博士生涯探索足式机器人的全身运控。李钟毓博士毕业于加州大学伯克利分校，在Koushil Sreenath 教授的指导下开展研究。他的目标是打造安全、智能且敏捷的腿足机器人，使其成为更好的“人类伙伴”。他的研究主要聚焦于结合基于模型的最优控制与无模型的强化学习，来解决腿足机器人的控制与规划问题，也致力于推动腿足机器人能力边界的拓展，使其不仅仅局限于行走功能。李钟毓博士将于2025年秋季加入香港中文大学（CUHK）机械与自动化系担任助理教授，研究方向为人形机器人、高动态机器人与具身智能，他正在招收优秀PhD/Postdoc/Intern，欢迎感兴趣的同学加入他的实验室！目录（先发布，有时间再加时间标注，也可以参考石麻笔记公众号看文字稿）足式机器人小脑的构建 1. 基于模型的运动控制 2. 基于RL的运动控制 3. 足式机器人的运动操作任务 4. 多智能体协同控制 5. 安全性问题一些问题 6. 怎么定义小脑 7. 足式机器人的运控从基于模型的控制到RL过渡的关键因素 8. 足式机器人的通用控制器 9. 怎么理解RL的泛化性不好 10. RL的sim2real从不可能到可能 11. 硬件底层透明的重要性如开头提到，李钟毓博士目前正在为他在港中文的实验室招生，仍有很多名额：博士（26 Fall入学）、博士后（最早25 Fall入职）、访问学生（本科生/硕士，随时加入）。欢迎对人形机器人、具身智能、控制理论感兴趣的同学加入！申请方式感兴趣的同学请发送一封英文邮件到: zhongyu_li AT berkeley.edu. 请包含以下内容：标题格式：[Application] PhD/Postdoc/Visiting Student - Name - Which Track (VLA/Humanoid/Control Theory/Design) 正文简要介绍自己的研究兴趣和过往经历，附上英文简历。有国奖的同学请标明。李钟毓主页：zyliatzju.github.io

50分钟

EP09 全英文专访Xue Bin(Jason) Peng：人形机器人全身运控的探索

对于从事人形机器人运动控制的朋友来说，Xue Bin（Jason）Peng 的名字一定不会陌生。过去一年中，我们看到大量高质量的人形机器人拟人演示出现在各个平台上，而这些演示背后的技术基础，很多都可以追溯到 Jason 早期提出的一系列开创性工作，包括 DeepMimic、AMP（Adversarial Motion Priors）和 ASE（Adversarial Skill Embedding）等。这些方法极大地降低了人形机器人模仿学习（Imitation Learning）的技术门槛，可以说，Jason 的研究奠定了今天人形机器人实现灵活、自然运动控制的重要基础。Xue Bin（Jason）Peng目前是西蒙弗雷泽大学（Simon Fraser University, SFU）的助理教授，同时也是英伟达（NVIDIA）的研究科学家。他的研究工作主要位于计算机图形学与机器学习的交叉领域，重点关注使用强化学习进行虚拟角色运动控制。值得一提的是，Jason 的学术成长路径也极具代表性。他的导师——Michiel van de Panne、Pieter Abbeel和Sergey Levine，分别是角色动画（Character Animation）和机器人强化学习（Robotics + RL）领域最具影响力的顶尖教授。 Jason 在硕士阶段，师从不列颠哥伦比亚大学（UBC）的图形学专家 Michiel van de Panne，这位教授不仅是 Character Animation 领域的奠基人物之一，同时也是 Andrej Karpathy（前 Tesla AI 总监）的硕士导师和 ETH Computational Robotics Lab教授 Stelian Coros 的博士导师。随后，他在加州大学伯克利分校（UC Berkeley）攻读博士学位，师从机器学习领域重量级学者 Sergey Levine 和 Pieter Abbeel，在强化学习（Reinforcement Learning）与机器人智能领域打下了扎实而深远的基础。这期访谈，我们的话题覆盖Jason的研究经历以及他的几篇人形机器人全身运控的奠基性工作，包括他对未来通用控制器构建的思路以及对人形机器人硬件的建议。相信这期访谈对于从事人形机器人软硬件开发的朋友们多少会有些帮助。本期节目也特别感谢国地共建具身智能机器人创新中心学术委员会主任张强作为特邀嘉宾主持。以下为本文目录 👇 从图形学到机器人 1. 导师的影响 2. 从图形学到机器人的Sim2Real 3. 机器人的挑战 4. 怎么做Sim2Real 经典工作介绍 5. DeepMimic 6. AMP 7. ASE 8. Masked Mimic 强化学习vs模仿学习 9. 怎么比较在locomotion方面模仿学习和强化学习的优缺点 10. RL在操作上的瓶颈在哪里？机器人大模型 11. 怎么看VLA？ 12. 在运控方面产业界是否超越了学术界？ 13. 未来的研究方向-通用控制器 14. 未来的通用控制器怎么做？ 15. Latent Space是否必要？ 16. 是否看好MOE？ 17. 对目前的人形机器人硬件有什么建议？录音质量不是很好，感兴趣的朋友可以等几天在公众号“石麻笔记”上查看中文文字整理，或者可以在Substack上查看英文文字记录链接如下：open.substack.com

45分钟

EP08 对话陈建宇：星动纪元的Robot Era

ERA-42中的“Era”代表新的纪元，象征着公司致力于开启机器人技术的新时代，是“Robot Era星动纪元”的延续。而“42”这一数字则源自经典科幻作品《银河系漫游指南》中的一个梗，寓意着“宇宙的终极答案”。星动纪元是北京清华系的一家人形机器人创业公司，成立于2023年下半年，创业初期市场普遍认为这也是一家以机器人本体和下肢运动控制能力为主的创业公司，亮点只是在于用强化学习进行控制，直到最近公司陆续发布了灵巧手以及ERA-42机器人大模型完成丰富的操作任务，才让大家认识到了公司完整的软硬件技术实力和快速的迭代能力，今天有幸邀请到星动纪元创始人陈建宇教授跟我们分享他们是如何做到这一切的。陈建宇目前是清华大学跨学科信息科学研究院（IIIS）的助理教授。在此之前，他曾在加利福尼亚大学伯克利分校与Tomizuka教授合作，并于2020年获得博士学位。他于2015年获得清华大学的本科学位。陈建宇的研究工作聚焦于人工智能与机器人学的交叉领域，旨在构建高性能、高智能的先进机器人系统，研究兴趣包括强化学习、机器人学、控制理论和自动驾驶。本期节目由嘉宾主持Tim来Host。播客文字整理可以在ReSpark同名公众号《ReSpark》上查看（文字可能有滞后）。

51分钟

1k+

EP07 对话陈哲：未来十年，AI机器人领域一定会诞生顶级的科技企业

机器人赛道的投资机会在国内已经有十几年的历史，但在这个方向上，能够做到有业绩、有认知，并且长期深耕的投资人并不多。在我看来，陈哲（Peter）就是其中做得非常出色的一位。在当前资本寒冬的背景下，陈哲刚刚成立了一只新基金——Alphaist Partners。我非常荣幸能够在他新基金成立之际，和他进行这次对谈，让我们来听听陈哲在机器人领域的投资经验，对当下具身智能的独到见解，以及他给新基金会支持的创业者们的寄语。陈哲（Peter）是一位工程师出身的投资人。他高中毕业后前往加拿大留学，完成了电子工程的本科和研究生学业。毕业后，他的职业生涯从黑莓开始，主要从事智能手机通信相关的工作。之后，他前往硅谷，加入了Google，成为Google Glass团队的一员，专注于嵌入式系统和信号处理领域。 2016年，陈哲前往哈佛大学攻读MBA。在MBA期间，他选择回到国内，并加入了晨兴资本（后更名为五源资本），正式开启了风险投资（VC）的职业生涯。他在五源资本一直工作到2024年底，期间专注于AI和机器人领域的投资。陈哲对机器人领域的关注始于自动驾驶领域，他曾主导投资了多家优秀公司，并密切关注技术的拓展与衍生场景。见证了自动驾驶技术外溢到其他场景的趋势，包括小米投资的石头科技推出的单线激光雷达扫地机器人，以及大疆推出的带有视觉避障功能的消费级无人机，从2017年到2018年，他开始密集布局机器人领域的投资。如今，陈哲成立了一家新的早期美元基金Alphaist Partners，继续聚焦于AI和机器人方向的投资。可以关注小宇宙APP搜索ReSpark，或者苹果Podcast搜索ReSpark收听播客栏目。 00:54自我介绍及新基金第一部分：机器人行业投资经验 05:10 过去10几年机器人行业投资的观察 10:30 对机器人方向创业和投资有可能会大成的心得是什么？ 12:40 机器人2B和2C领域的企业成功的特质是什么？ 14:50 怎么看2B和2C机器人企业的空间？第二部分：当下具身智能赛道的投资观察 19:40 过往两年，作为机器人赛道的顶级投资人感受是什么？ 23:35 怎么理解这波机器人的技术变量？ 26:32 怎么期待技术的落地？ 31:25 可否总结通用操作创业公司的技术路径？ 37:00 怎么看只做具身模型的创业？ 42:55 关于机器人数据,怎么看机器人数据相关的创业？ 48:00 怎么看具身智能可能的落地场景？ 57:00 怎么看待通用机器人的终极场景？第三部分：关于工作方法和新基金 59:40 如何做到一直以来对机器人领域前沿进展保持紧密跟踪？ 62:35 推荐的内容 68:05 新基金的寄语本期节目的文字总结可以关注公众号《石麻笔记》或ReSpark同名公众号《ReSpark》查看。也可以通过[email protected]联系Peter。

72分钟

2k+