Album
时长:
3分钟
播放:
30
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,当前大部分评测榜单都是采用最领先的冠军模型给其他被测模型打分,这解决了大量题库判分的时间和效率问题,但却忽视了模型的最终用户是人类,人类的主观体验、客观要求的独特性,所以会带来评测与用户和专家体验存在差异,“遇事不决、人机结合”通常是个好办法。


全球AI要闻,HuggingFace公司呼吁,大模型测评请停止用大型语言模型作裁判!


近日,Hugging Face公司的OpenLLM模型评测排行榜维护者Clémentine Fourrier,在Latent Space播客中强调,最新版评测规则下的大语言模型榜单结果显示,有些大模型排名一次性上下跳动了50名,说明模型过拟合、数据污染等问题较多,这导致基准分数膨胀。现在模型发展的速度远超过基准评测更新的速度。Fourrier呼吁,人们应该停止使用大语言模型作为模型评测的“AI裁判”,因为它们在评估中引入了很多微妙的偏见。“当前基准中最难的两个评估是数学和多步推理,而运行整个数据集进行评测非常昂贵。当前评侧题还缺乏复杂逻辑评估,模型在复杂逻辑推理这方面表现很差。如果AI模型能学习如何在基于逻辑任务中的严谨推理模式,那将是AI推理能力的一个重要进步。”


亮点1,LMSysArena模型竞技场能告诉你很多关于用户对AI偏好的信息,但并不总是能说明模型的客观能力。建议是找到3到4个符合你需求的模型,包括响应速度、使用成本、基础能力等条件适配,然后用户进行直觉检查,找出最适合你特定任务的模型。


亮点2,如果让一个“裁判模型”选择哪个被评测模型输出内容更好,它会更喜欢来自自身同一系列的模型。另外,还存在“位置偏见”,“裁判模型”通常更喜欢第一个出现的答案,所以必须打乱被评测模型答案出现的顺序。


亮点3,与其让“裁判模型”给每个被测模型输出打分,应该进行堆叠排名。因为裁判模型并没有专门训练用来打分,所以即使它们可能理解哪个回答更好,准确打分却很难达成。


亮点4,模型评测中有3种类型的人类评估方法。我们人类裁判有人类主观直觉评估、Arena用户投票类型评估,还有付费的人类专业注释员进行评估,这是Scale AI公司的评测方法体系,是非常好的改进方向。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,请点赞、收藏、分享加关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧