第233集如何给大模型出考题？

第233集如何给大模型出考题？

2分钟 22 1年前

主播

田丰说

田丰说 1 档播客

节目简介

来源：小宇宙

就是我要基于这个测评体系

去构建测评集

这个测评集

就是为了去衡量模型的

这个具体的性能指标

第二步是题库

对题库

可以理解为就考试的这个题库

然后第三点就是我如何

就是

把模型在这个题库上的一个表现

去做

设计具体的衡量指标去评价

所以说第三点非常重要的

就是模型的具体的这个评价方法

对所以说测评基准它的最大的目的

第三个就是判分规则

判分规则

没错没错

判分规则

而且往往比较好的一个测评基准

它是需要有完全自动化的这个评测的

对

原因是

因为模型的在刚才说的各个环节中

它的迭代的次数是很多的

它会经常高频率去做训练

那在这个基础上

我是需要有同样的

一套保证一致性的一个测评的基准

去判断我不同模型的版本

迭代的这个

不同模型的一个效果的一个好坏

那如果人工去

就是刚才说判分

如果人工去判分的话

它这个波动性会很大

但是

比如说我们采用自动化的

这个测评的一个方式

它可以去完全

那个对比

客观高效

然后科学的去评判

我各个模型之间的这个

性能的一个差异

外观

加入我们的 Discord

与播客爱好者一起交流

扫描微信二维码

添加微信好友，获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧