关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,类似对抗神经网络原理,让AI给另一个AI挑错并改进,成为模仿人类“学习-实践-优化”循环的技术实现方法,之所以采用小模型作为验证器是因为其成本低、可行性高,对大模型有答案检验能力的小模型,正在逐渐演变为一种AI云端通用服务。
全球AI要闻,OpenAI超级对齐成果:小大模型博弈输出。
7月18日凌晨,OpenAI在官网发布超级对齐研究成果,由于神经网络的复杂性和多变性,无法验证其生成内容的准确性,出现 “黑盒”问题。为了解决该难题,OpenAI提出了全新训练框架Prover-Verifier Games(PVG),
例如,用GPT-3这样的小模型来验证、监督GPT-4大模型的输出,从而提升输出准确率、可控性。论文作者之一、OpenAI研究员Yining Chen表示,这种方法“有可能使未来的模型比人类更聪明”。
亮点1,PVG模块的核心思想是通过多轮迭代训练,来提升AI证明者和AI验证者的整体性能。在每一轮训练中,验证者模型首先使用监督学习来预测从之前轮次的证明者模型中采样的内容正确性。
亮点2,在多轮训练中将人类偏好引入了验证器,千分之一到百分之一的效果最佳,其鲁棒性也逐渐增强,能够更准确地识别出错误答案。
亮点3,在验证的过程中,证明者和验证者的角色相互依赖。证明者模型需要生成能够说服验证者模型的内容,而验证者模型则需要具备足够的判断力来识别出正确内容,OpenAI力图实现准确性和易读性的平衡。
亮点4,在训练过程中,还引入了一种名为可检查性训练,通过交替训练验证者和证明者模型,从而验证使用监督学习来预测从之前轮次的证明者中采样的解决方案的正确性。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
空空如也
暂无小宇宙热门评论