具身智能一百零八讲 - 视觉语言模型如何与人形机器人进行深度的结合 - EarsOnMe

主播

节目简介

来源：小宇宙

具身智能一百零八讲之三，视觉语言模型如何与人形机器人进行深度的结合.
大模型和智能体的区别是什么？具身智能体的核心特点是什么？多模态模型如何与人形机器人深度结合？今天重点给大家简要介绍这三个问题。我们都已经很习惯于使用大语言模型的chatbot,与大语言模型的零样本提示词（Zero-shot的Prompting)的范式相比，具身Agent系统内置了规划、循环和反思的控制机制，这些机制充分利用了模型的内在推理能力，实现从任务开始到结束的全流程处理，此外具身Agent还能够调用工具、插件、执行函数和机器人的行为库。由于物理世界的复杂性，具身智能体往往采用多智能体的架构，因为需要多个单智能体的协作，并采取多条执行路径。这里呢，在具身智能体系下，我给出四个子智能体定义，即感知智能体、规划智能体、评估智能体和行动智能体，这些组成理解、推理、行动，并进行评判的最低要求。多智能体分为两个类别，垂直架构和水平架构。在具身智能中，感知智能体、规划智能体和评估智能体本质是平等架构，上述三个智能体与行动智能体是垂直架构。智能体之间的通信发生在一个共享的线程中，每个智能体都可以看到其它智能体的所有消息。评估智能体的反馈机制，有助于帮助其它智能体纠正自己的方向，避免雪球效应，达到目标。多模态模型与人形机器人进行深度
的结合，需要有三个要求。第一是与自身限制的对齐，对齐时间限制和金钱消耗。第二是与人类意图的对齐，对齐人类意图的二义性和潜在偏好。第三是与环境的对齐，对齐环境规律、动态性和随机性。

视觉语言模型如何与人形机器人进行深度的结合

加入我们的 Discord

扫描微信二维码

播放列表