从交互的角度看人形机器人的发展需求
具身智能一百零八讲

从交互的角度看人形机器人的发展需求

2分钟 519 1年前
主播
节目简介
来源:小宇宙
具身智能一百零八讲之五,从交互的角度看人形机器人的发展需求。大模型给交互带来了什么革命性的变革?人形机器人对于交互有什么独特的需求?gpt-4的时延为5.4秒,而gpt-4o的平均时延320毫秒,与人类对话中的相应时间相似。这个时延的降低得益于端到端的模式,多模态的输入和输出都是同一神经网络处理。而在gpt-4为核心的的架构中,语音模式由三个独立模型构成,分别负责将音频转录为文本,接收文本并输出文本,将文本转换为音频。无法直接观察语音语调,无法输出笑声和情感。gpt-4o在人机交互上有以下特点,1)通过用户的语音和表情识别用户情感,2)模型调整后重新输出,而没有交流过程中的停顿。3)不同情感风格生成语音。一句话总结,gpt-4o为核心的交互系统,具备了低时延和多模态的特性。
除了声音交互的低延迟感需求,外观颜值更加重要,什么是恐怖谷效应?如何破解恐怖谷效应?半个世纪前的1970年,日本机器人学家森政弘(Mori Masahiro)发表了《恐惑谷》一文。直到美国机器人学家卡尔·麦克多曼(KarlMacDorman),在2005年和2012年两次将这篇随笔译成英文后,引发了国际学术界“迟来”的关注。恐怖谷理论是指随着仿真物(如机器人、玩偶)模拟真实性程度的变化,人们对其亲和力也发生变化,一般规律是亲和力随着仿真程度增高而增高,而当仿真程度到达一个较高临界点时,人的亲和反应会陡然跌入谷底,突然会产生对这个仿真物的排斥、恐惧、困惑等反向心理。与其远离恐怖谷,站立在恐怖谷的两侧也是不错的选择。就是一种接收度比较高的组合,即明显机器人特征部件和高度仿生部件组合。这种组合可以使得该机器人同时站立在恐怖谷的两侧,可能是未来主要的工作模式。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧