Album
时长:
2分钟
播放:
50
发布:
8个月前
主播...
简介...
https://xiaoyuzhoufm.com

智元机器人的「好东西」揭晓了,还是双重惊喜:Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。


机器人训练,数据方面总是难以攻克。一方面是认知维度的数据:互联网上海量的文本和图片数据,帮助机器人建立基础认知,理解世界是什么样的。


另一方面是动作维度的数据,主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据,还有机器人在实际环境中实操得来的真机示教数据。


图片


智元机器人将机器人的训练数据划分为四个层次


然而现有的 VLA(Vision-Language-Action)架构,主要依赖真机和合成数据。


我们每天刷的短视频有很多可供机器人学习的操作,但不能直接用,需要「翻译」成机器人能理解的语言。


因此,机器人很难做到看完人类的视频教程,脑子学会了,手学会了,直接上手做好了。


没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源,机器人迭代的成本更高,进化的速度也更慢了。


如今,随着 ViLLA 架构与 GO-1 大模型的重磅发布,机器人不仅拥有了海量真实和仿真数据,更具备了快速学习的迁移能力,让机器在拓展了运动能力之外,更加具备了 AI 的能力,作业能力,是让机器具备了真正的价值。


相信机器人将能更好地适应千变万化的现实环境,向着具备通用智能的自主体发展,在商业、工业、家居等多个领域大展身手。




体验链接:www.aippt.cn


本期主播:蛋酥酥/猫猫

后期:丹尼播客制作

制作人:蛋酥酥

录制支持:KUEENDOM

粉丝群微信:luxnirvana(备注播客过来哒)
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧