Album
时长:
2分钟
播放:
24
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

  • 科幻实际决策:科幻作品中的 AI 或机器人实际做出的决策。该团队观察到,这与人类价值观的对齐率仅有 21.2%。


  • 随机:这是随机响应时的预期对齐;对于二元分类问题,它接近 50%。


  • 基础模型:不将宪法放入提示词时的基础模型。由于没有宪法,因此无法提出这样的问题:「这个答案是否违反宪法?」而是必须问「这个答案是否可取?」结果,在对抗模式下,可取性问题更加困难 —— 基础模型表现不佳(如预期),对齐率为 23.3%;但在普通模式下,基础模型表现却很不错(79.4%)。这表明,与科幻决策相比,基础模型在未越狱时与人类基本一致。


  • 人类编写的宪法:该团队还报告了使用人类编写的宪法时的情况,结果发现它们在普通模式下表现得非常有竞争力(使用阿西莫夫机器人三定律的一个自动修订版时,可达到 95.8%),但在对抗模式下表现不佳。


  • 基于科幻生成的宪法:表现最好的宪法是生成的宪法(平均对齐率为 91.9%)。他们观察到,修改过程往往会对较短的宪法产生显著的积极影响,但这种影响也可能是负面的。他们还观察到,大多数表现最佳的宪法都是自动合并和自动修改的。最后,与基础模型相比,较长的生成宪法往往对对抗环境具有更强的弹性。


  • ASIMOV Benchmark:表 6 评估了一组更大的宪法,包括论文《Generating robot constitutions & benchmarks for semantic safety》中基于现实世界图像衍生的宪法。虽然这个基准包括 SciFi-Benchmark,但它主要来自现实世界的资产,例如现实世界的机器人图像和现实世界的医院人体伤害报告。尽管这里主要评估的是与科幻场景不同的分布,但该团队发现基于科幻生成的宪法却是与现实世界场景对齐程度最高的宪法之一。这表明科幻宪法在现实世界中具有高度相关性和实用性。


(资料来自网络并整理)


——————————————————————————————




体验链接:www.aippt.cn


本期主播:蛋酥酥/猫猫

后期:丹尼播客制作

制作人:蛋酥酥

录制支持:KUEENDOM

粉丝群微信:luxnirvana(备注播客过来哒)



评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧