得体男孩 - Vol.84|机器人告别「看得懂做不来」，首个通用具身基座模型—GO-1揭晓！ - EarsOnMe

主播

节目简介

来源：小宇宙

智元机器人的「好东西」揭晓了，还是双重惊喜：Vision-Language-Latent-Action (ViLLA) 架构和通用具身基座大模型 GO-1。

机器人训练，数据方面总是难以攻克。一方面是认知维度的数据：互联网上海量的文本和图片数据，帮助机器人建立基础认知，理解世界是什么样的。

另一方面是动作维度的数据，主要来源有人类的操作视频、跨本体示范视频、在虚拟场景中练习的仿真数据，还有机器人在实际环境中实操得来的真机示教数据。

智元机器人将机器人的训练数据划分为四个层次

然而现有的 VLA（Vision-Language-Action）架构，主要依赖真机和合成数据。

我们每天刷的短视频有很多可供机器人学习的操作，但不能直接用，需要「翻译」成机器人能理解的语言。

因此，机器人很难做到看完人类的视频教程，脑子学会了，手学会了，直接上手做好了。

没有充分激活人类 / 跨本体操作视频数据这个宝贵的数据来源，机器人迭代的成本更高，进化的速度也更慢了。

如今，随着 ViLLA 架构与 GO-1 大模型的重磅发布，机器人不仅拥有了海量真实和仿真数据，更具备了快速学习的迁移能力，让机器在拓展了运动能力之外，更加具备了 AI 的能力，作业能力，是让机器具备了真正的价值。

相信机器人将能更好地适应千变万化的现实环境，向着具备通用智能的自主体发展，在商业、工业、家居等多个领域大展身手。

体验链接：www.aippt.cn

本期主播：蛋酥酥/猫猫

后期：丹尼播客制作

制作人：蛋酥酥

录制支持：KUEENDOM

粉丝群微信：luxnirvana（备注播客过来哒）

Vol.84|机器人告别「看得懂做不来」，首个通用具身基座模型—GO-1揭晓！