视觉语言模型如何与人形机器人进行深度的结合
具身智能一百零八讲

视觉语言模型如何与人形机器人进行深度的结合

2分钟 205 2年前
主播
节目简介
来源:小宇宙
具身智能一百零八讲之三,视觉语言模型如何与人形机器人进行深度的结合.
大模型和智能体的区别是什么?具身智能体的核心特点是什么?多模态模型如何与人形机器人深度结合?今天重点给大家简要介绍这三个问题。我们都已经很习惯于使用大语言模型的chatbot,与大语言模型的零样本提示词(Zero-shot的Prompting)的范式相比,具身Agent系统内置了规划、循环和反思的控制机制,这些机制充分利用了模型的内在推理能力,实现从任务开始到结束的全流程处理,此外具身Agent还能够调用工具、插件、执行函数和机器人的行为库。由于物理世界的复杂性,具身智能体往往采用多智能体的架构,因为需要多个单智能体的协作,并采取多条执行路径。这里呢,在具身智能体系下,我给出四个子智能体定义,即感知智能体、规划智能体、评估智能体和行动智能体,这些组成理解、推理、行动,并进行评判的最低要求。多智能体分为两个类别,垂直架构和水平架构。在具身智能中,感知智能体、规划智能体和评估智能体本质是平等架构,上述三个智能体与行动智能体是垂直架构。智能体之间的通信发生在一个共享的线程中,每个智能体都可以看到其它智能体的所有消息。评估智能体的反馈机制,有助于帮助其它智能体纠正自己的方向,避免雪球效应,达到目标。多模态模型与人形机器人进行深度
的结合,需要有三个要求。第一是与自身限制的对齐,对齐时间限制和金钱消耗。第二是与人类意图的对齐,对齐人类意图的二义性和潜在偏好。第三是与环境的对齐,对齐环境规律、动态性和随机性。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧