具身智能一百零八讲 - 从交互的角度看人形机器人的发展需求 - EarsOnMe

主播

节目简介

来源：小宇宙

具身智能一百零八讲之五，从交互的角度看人形机器人的发展需求。大模型给交互带来了什么革命性的变革？人形机器人对于交互有什么独特的需求？gpt-4的时延为5.4秒，而gpt-4o的平均时延320毫秒，与人类对话中的相应时间相似。这个时延的降低得益于端到端的模式，多模态的输入和输出都是同一神经网络处理。而在gpt-4为核心的的架构中，语音模式由三个独立模型构成，分别负责将音频转录为文本，接收文本并输出文本，将文本转换为音频。无法直接观察语音语调，无法输出笑声和情感。gpt-4o在人机交互上有以下特点，1）通过用户的语音和表情识别用户情感，2）模型调整后重新输出，而没有交流过程中的停顿。3）不同情感风格生成语音。一句话总结，gpt-4o为核心的交互系统，具备了低时延和多模态的特性。
除了声音交互的低延迟感需求，外观颜值更加重要，什么是恐怖谷效应？如何破解恐怖谷效应？半个世纪前的1970年，日本机器人学家森政弘（Mori Masahiro）发表了《恐惑谷》一文。直到美国机器人学家卡尔·麦克多曼(KarlMacDorman)，在2005年和2012年两次将这篇随笔译成英文后，引发了国际学术界“迟来”的关注。恐怖谷理论是指随着仿真物（如机器人、玩偶）模拟真实性程度的变化，人们对其亲和力也发生变化，一般规律是亲和力随着仿真程度增高而增高，而当仿真程度到达一个较高临界点时，人的亲和反应会陡然跌入谷底，突然会产生对这个仿真物的排斥、恐惧、困惑等反向心理。与其远离恐怖谷，站立在恐怖谷的两侧也是不错的选择。就是一种接收度比较高的组合，即明显机器人特征部件和高度仿生部件组合。这种组合可以使得该机器人同时站立在恐怖谷的两侧，可能是未来主要的工作模式。

从交互的角度看人形机器人的发展需求

加入我们的 Discord

扫描微信二维码

播放列表