Album
时长:
20分钟
播放:
290
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

昨天花了 15 分钟,讲解 Deepseek R1-zero 的训练过程,


节目播出后,收到若干听众反馈,其中有听众想了解,如何把 Deepseek 这个通用大模型,进行专项训练,使之与企业的专业知识和内部数据库相结合,成为具有企业特色的专项模型?


我们这一期花十五分钟时间,先讲解港大马毅教授的新作,“监督微调增强记忆,强化学习举一反三”,


然后讲解 Deepseek R1 论文的第二部分,如何对 Deepseek R1-zero 进行专项训练,强化专业知识,避免违规言论,从而对 Deepseek R1-zero 再训练,进化成 R1,


最后讲讲,如何对 Deepseek R1 进行数据蒸馏,套出 Deepseek R1 的优选数据,用于训练小型模型,让小型模型具备大型模型的专业知识和严谨推理的能力。



之所以暂时没有讲 Agent 和 LoRa 这些传统的做法,是因为感觉到 Deepseek 有可能会颠覆性重构 AI 大模型本身以及下游应用范式,



所以,暂时先放下传统的 Agent 和 LoRa,放下执念,清空大脑,腾出空间,迎接 Deepseek 的颠覆性创新。

评价...

空空如也

小宇宙热门评论...
Ich_bin_大梦
9个月前 德国
3
为了解决训练过程中可能出现的语言混杂问题,R1 引入了一个语言一致性奖励 (Language Consistency Reward),该奖励根据 CoT 中目标语言单词的比例来计算。
拿普通人生剧本
7个月前 湖南
0
预训练——模式识别、监督微调——专项训练、强化学习——根据(人类/更大模型/自身/规则……)return奖惩进行迭代修改。
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧