时长:
9分钟
播放:
75
发布:
3个月前
主播...
简介...
播客Shownotes:Physical Intelligence——通用机器人"大脑"的诞生与未来
本期核心主题
聚焦Physical Intelligence(PI)公司如何将"基础模型思维"带入机器人领域,从技术突破、融资历程到通用机器人的落地挑战,解析"让任意机器人执行任意任务"的愿景与实践。
一、公司速览:从成立到独角兽的"火箭速度"
- 诞生与团队2023年成立,由谷歌DeepMind、UC Berkeley顶尖专家联合创办(CEO Karol Hausman、首席科学家Sergey Levine等)。
愿景:开发通用机器人"大脑",让任意机器人执行任意任务。
- 融资与估值:资本为何疯狂押注?2024年3月:首轮融资7000万美元,估值4亿美元(投资方含OpenAI、Thrive Capital等)。
2024年10月:发布首个模型π₀;11月A轮融资4亿美元(贝佐斯领投),估值飙升至20-24亿美元。
核心逻辑:投资界认可"机器人通用智能"的可行性。
二、核心技术:让机器人拥有"物理智能"的底层逻辑
- 模型π₀及迭代首个通用机器人基础模型,训练于家庭任务数据(折叠衣物、整理餐桌等),能输出电机控制信号。
迭代方向:π₀.5提升开放世界泛化能力和指令理解,减少"把蛋装满蛋盒强行合上"等失误。
- 技术架构:跨载体学习与多模态训练核心:Vision-Language-Action(视觉-语言-动作)架构,同时处理图像、语言指令、动作。
目标:打破"一个任务一个机器人"的局限,让不同硬件机器人共用"大脑"。
- 关键策略:从语言模型借鉴的"成功密码"数据:优先真实机器人数据(如远程操作收集的灵巧任务数据),而非工业重复数据、YouTube视频或仿真数据。
训练:"预训练-后训练"模式——先在全量数据预训练,再用高质量数据微调(如折叠衣物任务成功率提升的关键)。
三、突破案例:从"折叠衬衫"到"应对未知环境"
- 从0到1:折叠衣物的技术攻坚初期:仅能折叠单一尺寸衬衫,揉成团的衬衫成功率曾连续数月为0。
突破:引入30亿参数模型Polygeemma,结合预训练-微调,能连续折叠5件衣物(耗时从20分钟缩至9分钟)。
- 泛化能力:在陌生Airbnb也能工作数据:收集100+独特房间的家庭数据(厨房、卧室等),混合静态操作、网络数据预训练。
成果:在从未去过的房屋中完成关橱柜、清理液体、整理床铺等任务,成功率80%。
- 指令理解:从"拿错东西"到"听指挥"问题:早期常忽略指令(如让拿切菜板却拿盘子)。
解决:通过"标记化动作"和阻止梯度回传,保护语言模型能力,指令遵循率从20%升至80%。
四、未来挑战与机遇:通用机器人还要迈过哪些坎?
- 现存问题可靠性:成功率约80%,仍有"物品未推到底""被衬衫卡住"等失误。
效率与规划:速度、长期任务规划、部分环境观测(如薄切菜板难拿起)待提升。
- 关键方向数据:扩大真实机器人数据规模,结合合成数据(如用语言模型生成交互提示)。
技术:分层模型(高层分解任务、低层执行)、整合世界知识(平衡模型大小与数据库检索)。
生态:需要开源基础设施(代码、数据、模型),降低开发门槛。
- 行业启示通用模型是趋势:类似ChatGPT颠覆语言领域,机器人基础模型可能重塑行业。
真实数据不可替代:仿真和合成数据可辅助评估,但大规模真实交互数据是核心。
五、延伸思考
- 为什么工业自动化数据无法训练通用机器人?(缺乏行为多样性,难以应对灵活场景)
- 普通人能参与什么?(贡献开源代码、收集数据、微调模型等)
- 下一个突破点:能否用强化学习让机器人"从失败中学习"?
(注:内容基于Physical Intelligence公司进展及Chelsea Finn访谈核心观点)
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论