Album
时长:
2分钟
播放:
22
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

就是我要基于这个测评体系


去构建测评集


这个测评集


就是为了去衡量模型的


这个具体的性能指标


第二步是题库


对题库


可以理解为就考试的这个题库


然后第三点就是我如何


就是


把模型在这个题库上的一个表现


去做


设计具体的衡量指标去评价


所以说第三点非常重要的


就是模型的具体的这个评价方法


对所以说测评基准它的最大的目的


第三个就是判分规则


判分规则


没错没错


判分规则


而且往往比较好的一个测评基准


它是需要有完全自动化的这个评测的



原因是


因为模型的在刚才说的各个环节中


它的迭代的次数是很多的


它会经常高频率去做训练


那在这个基础上


我是需要有同样的


一套保证一致性的一个测评的基准


去判断我不同模型的版本


迭代的这个


不同模型的一个效果的一个好坏


那如果人工去


就是刚才说判分


如果人工去判分的话


它这个波动性会很大


但是


比如说我们采用自动化的


这个测评的一个方式


它可以去完全


那个对比


客观高效


然后科学的去评判


我各个模型之间的这个


性能的一个差异

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧