Album
时长:
48分钟
播放:
64
发布:
5天前
简介...
https://xiaoyuzhoufm.com
过去的机器人要么是只能在工厂做重复工作的机械臂,要么是在实验室里跌跌撞撞的“醉汉”。而在本期 Google DeepMind 播客中,主持人 Hannah Fry 深度对话了 DeepMind 机器人研究负责人 Carolina Parada,揭示了机器人领域正在发生的巨大飞跃。
通过将 Gemini 的多模态能力引入物理世界,DeepMind 正在构建能听、能看、甚至能理解“灌篮”概念的通用机器人。Carolina 详细解释了他们如何利用**“双系统”架构(System 1 & System 2)**——模仿人类大脑的“快思考与慢思考”,完美解决了大模型推理慢与物理世界要求实时反应之间的矛盾。这不仅是关于机械的故事,更是关于 AI 如何真正获得“常识”并理解物理世界的里程碑。如果你好奇通用机器人何时能进入家庭,这期节目将给出最前沿的答案。
时点内容 | Key Topics
* Gemini Robotics 的核心理念: 以前的机器人是被编程来执行特定任务的,现在的目标是构建通用的、能推理的机器人。
* 进化的三个阶段: 从早期的强化学习(叠积木),到引入 LLM(能听懂“我渴了”),再到现在的多模态 Transformer(理解视觉、语言并转化为动作)。
* 双系统架构(快慢思考):
System 2 (Slow & Clever): 云端的大模型(Gemini)负责复杂的推理和规划,比如理解“收拾桌子”意味着什么。
System 1 (Fast & Reactive): 端侧的小模型负责毫秒级的实时反应,比如手被挡住时立即避开,无需等待云端指令。
* 超越模仿: 机器人如何通过理解“灌篮”的抽象概念,成功玩弄它从未见过的篮球玩具,而不是单纯的动作复制。
* 灵巧性的突破: 为什么系鞋带、折纸这些对人类很容易的事,对机器人来说却是巨大的挑战?(莫拉维克悖论的讨论)。
* 数据采集的秘密: 研究人员如何通过 VR 头显和手套进行“傀儡操作”(Puppeteering),以第一人称视角教会机器人复杂的精细动作。
* 安全性与阿西莫夫定律: 介绍了 DeepMind 构建的 Asimov 数据集,教机器人理解物理世界的安全边界(例如:为什么不能把毛绒玩具放在热炉子上)。
* Sim-to-Real Gap: 模拟环境与真实世界的差距依然存在,特别是涉及柔性物体(如衣物)和流体时,真实世界的训练依然不可替代。
* 未来的预测: 行业讨论的风向已变——从怀疑“有生之年能否看到通用机器人”,变成了争论“是 5 年还是 10 年”。
相关链接与资源:
[视频来源]www.youtube.com
本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来比较奇怪。如想了解更多信息,请关注微信公众号“心流赫兹”获取AI最新资讯。
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧