AI 前线 - 十五分钟讲解 Deepseek 从 R1-zero 到 R1 的再训练 - EarsOnMe

AI 前线
十五分钟讲解 Deepseek 从 R1-zero 到 R1 的再训练

时长：

20分钟

播放：

290

发布：

9个月前

主播...

邓侃AI

简介...

昨天花了 15 分钟，讲解 Deepseek R1-zero 的训练过程，

节目播出后，收到若干听众反馈，其中有听众想了解，如何把 Deepseek 这个通用大模型，进行专项训练，使之与企业的专业知识和内部数据库相结合，成为具有企业特色的专项模型？

我们这一期花十五分钟时间，先讲解港大马毅教授的新作，“监督微调增强记忆，强化学习举一反三”，

然后讲解 Deepseek R1 论文的第二部分，如何对 Deepseek R1-zero 进行专项训练，强化专业知识，避免违规言论，从而对 Deepseek R1-zero 再训练，进化成 R1，

最后讲讲，如何对 Deepseek R1 进行数据蒸馏，套出 Deepseek R1 的优选数据，用于训练小型模型，让小型模型具备大型模型的专业知识和严谨推理的能力。

之所以暂时没有讲 Agent 和 LoRa 这些传统的做法，是因为感觉到 Deepseek 有可能会颠覆性重构 AI 大模型本身以及下游应用范式，

所以，暂时先放下传统的 Agent 和 LoRa，放下执念，清空大脑，腾出空间，迎接 Deepseek 的颠覆性创新。

评价...