田丰说 - 第115集谷歌Gemini，给机器人“长记忆”！ - EarsOnMe

主播

节目简介

来源：小宇宙

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。

田老师认为，人类只有一个大脑处理变化世界中的复杂任务，机器人也应该只有一个聪明的“大脑”，这个端到端的多模态大模型“大脑”应该具有视觉、语言、行动的协调性能力，像人类一样在所处环境中建立长期记忆，实现“反馈-调节”的环境交互执行能力，也就是我们常说的“知行合一”。

全球AI要闻，谷歌用Gemini模型训练机器人具有长记忆。

Google正在使用Gemini大模型训练机器人，结合长记忆提出了一种分层的视觉-语言-行动的自主导航模型Mobility VLA。

DeepMind论文详细介绍了Gemini 1.5 Pro模型的上下文窗口，如何让机器人RT-2使用简单的指令进行导航和完成任务。这项技术的工作原理是拍摄指定区域的视频，研究人员使用Gemini 1.5 Pro让机器人观看视频来了解环境。然后，机器人能根据实际情况，使用口头或图像输出执行命令。

谷歌DeepMind团队说， Gemini模型驱动的机器人在 9000 多平方英尺的操作区域内，对50多条用户指令的执行成功率高达90%。

每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

第115集谷歌Gemini，给机器人“长记忆”！