Album
时长:
9分钟
播放:
75
发布:
3个月前
主播...
简介...
https://xiaoyuzhoufm.com

播客Shownotes:Physical Intelligence——通用机器人"大脑"的诞生与未来


本期核心主题


聚焦Physical Intelligence(PI)公司如何将"基础模型思维"带入机器人领域,从技术突破、融资历程到通用机器人的落地挑战,解析"让任意机器人执行任意任务"的愿景与实践。


一、公司速览:从成立到独角兽的"火箭速度"



  1. ​诞生与团队​​2023年成立,由谷歌DeepMind、UC Berkeley顶尖专家联合创办(CEO Karol Hausman、首席科学家Sergey Levine等)。

    愿景:开发通用机器人"大脑",让任意机器人执行任意任务。


  2. ​融资与估值:资本为何疯狂押注?​​2024年3月:首轮融资7000万美元,估值4亿美元(投资方含OpenAI、Thrive Capital等)。

    2024年10月:发布首个模型π₀;11月A轮融资4亿美元(贝佐斯领投),估值飙升至20-24亿美元。

    核心逻辑:投资界认可"机器人通用智能"的可行性。



二、核心技术:让机器人拥有"物理智能"的底层逻辑



  1. ​模型π₀及迭代​​首个通用机器人基础模型,训练于家庭任务数据(折叠衣物、整理餐桌等),能输出电机控制信号。

    迭代方向:π₀.5提升开放世界泛化能力和指令理解,减少"把蛋装满蛋盒强行合上"等失误。


  2. ​技术架构:跨载体学习与多模态训练​​核心:Vision-Language-Action(视觉-语言-动作)架构,同时处理图像、语言指令、动作。

    目标:打破"一个任务一个机器人"的局限,让不同硬件机器人共用"大脑"。


  3. ​关键策略:从语言模型借鉴的"成功密码"​​数据:优先真实机器人数据(如远程操作收集的灵巧任务数据),而非工业重复数据、YouTube视频或仿真数据。

    训练:"预训练-后训练"模式——先在全量数据预训练,再用高质量数据微调(如折叠衣物任务成功率提升的关键)。



三、突破案例:从"折叠衬衫"到"应对未知环境"



  1. ​从0到1:折叠衣物的技术攻坚​​初期:仅能折叠单一尺寸衬衫,揉成团的衬衫成功率曾连续数月为0。

    突破:引入30亿参数模型Polygeemma,结合预训练-微调,能连续折叠5件衣物(耗时从20分钟缩至9分钟)。


  2. ​泛化能力:在陌生Airbnb也能工作​​数据:收集100+独特房间的家庭数据(厨房、卧室等),混合静态操作、网络数据预训练。

    成果:在从未去过的房屋中完成关橱柜、清理液体、整理床铺等任务,成功率80%。


  3. ​指令理解:从"拿错东西"到"听指挥"​​问题:早期常忽略指令(如让拿切菜板却拿盘子)。

    解决:通过"标记化动作"和阻止梯度回传,保护语言模型能力,指令遵循率从20%升至80%。



四、未来挑战与机遇:通用机器人还要迈过哪些坎?



  1. ​现存问题​​可靠性:成功率约80%,仍有"物品未推到底""被衬衫卡住"等失误。

    效率与规划:速度、长期任务规划、部分环境观测(如薄切菜板难拿起)待提升。


  2. ​关键方向​​数据:扩大真实机器人数据规模,结合合成数据(如用语言模型生成交互提示)。

    技术:分层模型(高层分解任务、低层执行)、整合世界知识(平衡模型大小与数据库检索)。

    生态:需要开源基础设施(代码、数据、模型),降低开发门槛。


  3. ​行业启示​​通用模型是趋势:类似ChatGPT颠覆语言领域,机器人基础模型可能重塑行业。

    真实数据不可替代:仿真和合成数据可辅助评估,但大规模真实交互数据是核心。



五、延伸思考



  • 为什么工业自动化数据无法训练通用机器人?(缺乏行为多样性,难以应对灵活场景)

  • 普通人能参与什么?(贡献开源代码、收集数据、微调模型等)

  • 下一个突破点:能否用强化学习让机器人"从失败中学习"?


(注:内容基于Physical Intelligence公司进展及Chelsea Finn访谈核心观点)

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧