野格知识贩子
AI 创业故事：Physical Intelligence 如何打造通用机器人 “大脑”？

Album

时长：

9分钟

播放：

75

发布：

4个月前

主播...

简介...

播客Shownotes：Physical Intelligence——通用机器人"大脑"的诞生与未来

本期核心主题

聚焦Physical Intelligence（PI）公司如何将"基础模型思维"带入机器人领域，从技术突破、融资历程到通用机器人的落地挑战，解析"让任意机器人执行任意任务"的愿景与实践。

一、公司速览：从成立到独角兽的"火箭速度"

诞生与团队2023年成立，由谷歌DeepMind、UC Berkeley顶尖专家联合创办（CEO Karol Hausman、首席科学家Sergey Levine等）。

愿景：开发通用机器人"大脑"，让任意机器人执行任意任务。

融资与估值：资本为何疯狂押注？2024年3月：首轮融资7000万美元，估值4亿美元（投资方含OpenAI、Thrive Capital等）。

2024年10月：发布首个模型π₀；11月A轮融资4亿美元（贝佐斯领投），估值飙升至20-24亿美元。

核心逻辑：投资界认可"机器人通用智能"的可行性。

二、核心技术：让机器人拥有"物理智能"的底层逻辑

模型π₀及迭代首个通用机器人基础模型，训练于家庭任务数据（折叠衣物、整理餐桌等），能输出电机控制信号。

迭代方向：π₀.5提升开放世界泛化能力和指令理解，减少"把蛋装满蛋盒强行合上"等失误。

技术架构：跨载体学习与多模态训练核心：Vision-Language-Action（视觉-语言-动作）架构，同时处理图像、语言指令、动作。

目标：打破"一个任务一个机器人"的局限，让不同硬件机器人共用"大脑"。

关键策略：从语言模型借鉴的"成功密码"数据：优先真实机器人数据（如远程操作收集的灵巧任务数据），而非工业重复数据、YouTube视频或仿真数据。

训练："预训练-后训练"模式——先在全量数据预训练，再用高质量数据微调（如折叠衣物任务成功率提升的关键）。

三、突破案例：从"折叠衬衫"到"应对未知环境"

从0到1：折叠衣物的技术攻坚初期：仅能折叠单一尺寸衬衫，揉成团的衬衫成功率曾连续数月为0。

突破：引入30亿参数模型Polygeemma，结合预训练-微调，能连续折叠5件衣物（耗时从20分钟缩至9分钟）。

泛化能力：在陌生Airbnb也能工作数据：收集100+独特房间的家庭数据（厨房、卧室等），混合静态操作、网络数据预训练。

成果：在从未去过的房屋中完成关橱柜、清理液体、整理床铺等任务，成功率80%。

指令理解：从"拿错东西"到"听指挥"问题：早期常忽略指令（如让拿切菜板却拿盘子）。

解决：通过"标记化动作"和阻止梯度回传，保护语言模型能力，指令遵循率从20%升至80%。

四、未来挑战与机遇：通用机器人还要迈过哪些坎？

现存问题可靠性：成功率约80%，仍有"物品未推到底""被衬衫卡住"等失误。

效率与规划：速度、长期任务规划、部分环境观测（如薄切菜板难拿起）待提升。

关键方向数据：扩大真实机器人数据规模，结合合成数据（如用语言模型生成交互提示）。

技术：分层模型（高层分解任务、低层执行）、整合世界知识（平衡模型大小与数据库检索）。

生态：需要开源基础设施（代码、数据、模型），降低开发门槛。

行业启示通用模型是趋势：类似ChatGPT颠覆语言领域，机器人基础模型可能重塑行业。

真实数据不可替代：仿真和合成数据可辅助评估，但大规模真实交互数据是核心。

五、延伸思考

为什么工业自动化数据无法训练通用机器人？（缺乏行为多样性，难以应对灵活场景）

普通人能参与什么？（贡献开源代码、收集数据、微调模型等）

下一个突破点：能否用强化学习让机器人"从失败中学习"？

（注：内容基于Physical Intelligence公司进展及Chelsea Finn访谈核心观点）

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...

加入我们的 Discord

与播客爱好者一起交流

扫描微信二维码

添加微信好友，获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧