Album
时长:
1分钟
播放:
12
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,人类只有一个大脑处理变化世界中的复杂任务,机器人也应该只有一个聪明的“大脑”,这个端到端的多模态大模型“大脑”应该具有视觉、语言、行动的协调性能力,像人类一样在所处环境中建立长期记忆,实现“反馈-调节”的环境交互执行能力,也就是我们常说的“知行合一”。


全球AI要闻,谷歌用Gemini模型训练机器人具有长记忆。


Google正在使用Gemini大模型训练机器人,结合长记忆提出了一种分层的视觉-语言-行动的自主导航模型Mobility VLA。


DeepMind论文详细介绍了Gemini 1.5 Pro模型的上下文窗口,如何让机器人RT-2使用简单的指令进行导航和完成任务。这项技术的工作原理是拍摄指定区域的视频,研究人员使用Gemini 1.5 Pro让机器人观看视频来了解环境。然后,机器人能根据实际情况,使用口头或图像输出执行命令。


谷歌DeepMind团队说, Gemini模型驱动的机器人在 9000 多平方英尺的操作区域内,对50多条用户指令的执行成功率高达90%。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧