Album
时长:
3分钟
播放:
11
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,将来自于物理数据、人类数据、科学推理逻辑作为“种子”,进行合成和扩展获得混合数据,正在成为大模型产业的必经之路,建议中国把工业企业数据、高校数学数据、科研院所思维链数据共享、汇编为训练数据种子,由国家平台向基础模型研发机构开放,将显著提速我国人工智能科研创新速度。


全球AI要闻,混合数据才是未来,并非纯合成数据。


近日,《自然》杂志封面论文表明,随着新一代模型连续在合成数据上进行递归训练,模型会崩溃。Scale AI公司CEO Alexandr Wang对此深表赞同,强调利用纯合成数据来训练模型,都会丢失一些信息和精度。而混合数据才是未来发展方向,它能够避免所有与模型崩溃相关的风险。“数据墙”、生成新数据的难度是一个大模型发展遇到的真问题,但并非不能克服,答案就是混合数据,即人类专家利用合成方法产生大量数据,将大幅提高产量。超越多轮推理的前沿数据将变得更有价值,这就是我们突破数据墙的方法。


亮点1,A16z合伙人Martin Casado指出,现在的“多轮数据”非常昂贵。单个答案的价格为20到200美元以上,具体取决于数据质量。这就是为大型语言模型LLM研发所需“新数据”的成本,我们需要更大数量级的训练数据来继续扩展。


亮点2,Wang预测,当今许多研究人员将合成数据视为人工智能的“点金石”,如果在没有信息增益的合成数据上草率进行训练,开发人员会发现模型随时间推移变得越来越奇怪和愚蠢。


亮点3,在混合数据过程中,必须通过某种新信息来源来生成,使用真实世界数据作为种子、人类专家参与、形式逻辑引擎等。


亮点4,在使用合成数据训练新模型时,不仅应关注生成器的质量,还需要一个高质量的验证者来选择数据。


亮点5,一个被忽视的效应是,市场为创建高质量数据所花费的成本越高,模型的质量就越好,从而进一步提高了未来数据的质量标准和所需成本。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧