时长:
1分钟
播放:
12
发布:
1年前
主播...
简介...
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,人类只有一个大脑处理变化世界中的复杂任务,机器人也应该只有一个聪明的“大脑”,这个端到端的多模态大模型“大脑”应该具有视觉、语言、行动的协调性能力,像人类一样在所处环境中建立长期记忆,实现“反馈-调节”的环境交互执行能力,也就是我们常说的“知行合一”。
全球AI要闻,谷歌用Gemini模型训练机器人具有长记忆。
Google正在使用Gemini大模型训练机器人,结合长记忆提出了一种分层的视觉-语言-行动的自主导航模型Mobility VLA。
DeepMind论文详细介绍了Gemini 1.5 Pro模型的上下文窗口,如何让机器人RT-2使用简单的指令进行导航和完成任务。这项技术的工作原理是拍摄指定区域的视频,研究人员使用Gemini 1.5 Pro让机器人观看视频来了解环境。然后,机器人能根据实际情况,使用口头或图像输出执行命令。
谷歌DeepMind团队说, Gemini模型驱动的机器人在 9000 多平方英尺的操作区域内,对50多条用户指令的执行成功率高达90%。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论