Album
时长:
3分钟
播放:
95
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

当前,大多数现有的视频生成模型在学习知识时,主要依赖语言或标签数据,很少涉及对纯视觉信号的学习,就像 Sora 这类模型便是如此。


然而,语言存在一定局限性,并不能涵盖真实世界里的所有知识。比如折纸、打领结这类复杂任务,很难单纯依靠语言进行清晰、准确的表达。


那么,模型是否能够不借助语言模型,仅仅从纯视觉的角度去学习知识、认知世界,进而掌握推理和规划等能力呢?


如今,豆包大模型团队携手北京交通大学、中国科学技术大学,共同推出了 VideoWorld。


这是一款通用的视频生成模型,即便不依赖语言模型,它也能够统一执行理解和推理任务。VideoWorld 借助一种潜在动态模型(Latent Dynamics Model,LDM),可以高效压缩视频帧与帧之间的视觉变化信息,从而大幅提升知识学习的效率和效果。


最终,VideoWorld 在没有借助任何强化学习搜索或奖励函数机制的情况下,达到了专业 5 段的 9×9 围棋水平,并且能够在多种不同环境中执行机器人任务。


豆包团队视频生成新突破:无需语言模型,仅凭 “视觉” 就能学习复杂任务


视频地址:

mp.weixin.qq.com


这一研究成果在业内已经引发了一定程度的关注。


AI 领域大 V、科技评论网站 ReadMultiplex 创始人 Brian Roemmele 认为:这是机器人学习和推理领域的一项重大进步。





论文作者观点


论文作者表示,尽管在真实世界视频的生成和泛化方面,仍然面临着巨大挑战,但视频生成模型有潜力成为一种通用的知识学习方法,甚至可以充当在现实世界中进行思考和行动的人工大脑。


目前,该项目的代码与模型均已开源。


仅凭 “视觉”,就能学习复杂任务






就如同李飞飞教授 9 年前在演讲中提到 “幼儿可以不依靠语言理解真实世界” 一样,在自然界中,大猩猩以及其他灵长类动物主要依靠视觉观察来学习诸如觅食和社交互动等重要技能。人类婴幼儿同样在不借助语言的情况下,就能够理解周围的环境。


那么,人工智能模型能否仅通过视觉输入来汲取知识呢?


为了探寻其中的答案,研究团队构建了两个实验环境:视频围棋对战和视频机器人模拟操控。





研究者们觉得,围棋能够很好地用于评估模型的规则学习、推理以及规划能力。而且围棋图像可以将外观、纹理等复杂细节与高级知识的评估分离开来,非常适合用于探索上述问题。同时,机器人任务则可以考察模型理解控制规则和规划任务的能力。


在模型训练过程中,使用的是一个包含大量视频演示数据的离线数据集,通过这个数据集,得到一个可以根据过往观测来预测未来帧的视频生成器。


训练结束后,模型能够直接学习一个与任务相关的映射函数,将生成的视频帧转化为任务执行所需的动作。这使得视频生成模型在不依赖任何动作标签的情况下,也能够学习和执行具体任务。


一开始,团队使用朴素的自回归模型来实例化视频生成器,该模型包含一个 VQ-VAE 编码器 - 解码器和一个自回归 Transformer。编码器负责将视频帧转换为离散的标记,Transformer 在训练期间利用这些标记来预测下一标记。


在推理阶段,Transformer 生成下一帧的离散标记,随后这些标记由解码器转换回像素空间。


基于上述朴素的框架,研究团队发现,视频生成模型能够掌握基本的围棋规则、走棋策略以及机器人操纵能力。


但与此同时,团队也发现,视频序列的知识挖掘效率明显低于以文本形式呈现的知识,具体情况如下图所示。


团队分析原因


团队将这一现象归结为 —— 视频中存在大量的冗余信息,这在一定程度上影响了模型的学习效率。


例如,棋子的移动其实可以仅通过状态序列中的少量位置标记进行编码,然而在视频中,视觉编码器却需要产生多得多的标记。这种差异对于模型快速学习复杂知识是不利的。


压缩视觉变化,让视频学习更加高效


基于上述观察结果,团队提出了 VideoWorld。它在保留丰富视觉信息的基础上,对与关键决策和动作有关的视觉变化进行压缩处理,以此实现更高效的视频学习。


VideoWorld 引入了一个潜在动态模型(Latent Dynamics Model, LDM),将帧间的视觉变化压缩为紧凑的潜在编码,从而提高模型对知识


论文链接:arxiv.org

代码链接:github.com

项目主页:maverickren.github.io


(部分资料来源网络)


本期主播:蛋酥酥/猫猫

后期:丹尼播客制作

制作人:蛋酥酥

录制支持:KUEENDOM
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧