1. Deepseed 的三大战役 00:00 2. 多模态竞争格局 03:15 3. 多模态技术现状与缺陷 09:11 4. 统一场多模态的初步尝试 14:35 4.1 清华唐杰教授的 CogVLM 22:04 4.2 Yang LeCun 和谢赛宁教授的 MetaMorph 27:46 5. Janus-pro 系统架构 30:59 5.1 Adaptors + Pretained Encoders 31:24 5.2 AutoRegressive Transformer + Rectified Flow Model 33:48 6. 模型训练成了炼金术 37:05 6.1 分成三个阶段来训练 38:58 6.2 每个阶段的时长的配比 40:41 6.3 每个阶段不同类型数据的配比 42:26 7. 训练成本 48:20 8. 两个先进武器迎战最后的决战 51:12 8.1 用流体力学来生成图像 52:45 8.2 当多模态与 MLA 和 MoE 融合 62:48 9. 总结 66:10 1. Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling 2. JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation 3. CogVLM: Visual Expert for Pretrained Language Models 4. MetaMorph: Multimodal Understanding and Generation via Instruction Tuning
1. 前言 00:00 2. 消息来源 00:44 3. 数据来源 01:36 3.1 五个公开数据集 02:38 3.2 自创两个数据集 04:15 4. 数据处理 05:48 4.1 筛选 05:59 4.2 蒸馏 Google Gemini 是误解 06:21 5. 模型训练 07:29 5.1 通义千问 Qwen2.5-32B 是模型基座 07:32 5.2 SFT 训练产生 s1-32B 模型 08:28 5.3 Budget forcing 09:02 5.4 成本只有 24 美元 10:02 6. 伯克利潘博士的尝试 12:54 6.1 基座也是通义千问,不过模型规模更小,Qwen2.5-3B 13:23 6.2 针对两个简单的数学专项任务 13:54 6.3 成本不到 30 美元 14:31 7. 总结 14:58 参考文献: 1. 李飞飞教授的论文: arxiv.org 2. Berkeley 潘博士的项目: github.com
1. 前言 00:00 2. 传统的 AI 使用方式 00:42 2.1 Agent vs workflow 01:07 2.2 Agent vs RAG 05:11 2.3 RAG 功能模块 09:37 2.4 LangChain、LlamaIndex, AutoGPT 14:54 3. 来自 Deepseek 的颠覆性创新 23:35 3.1 Multi-head Latent Attention (MLA) 24:58 3.2 Mixture of Expert (MoE) 26:49 3.3 SFT + RL 32:55 3.4 Janus 37:34 4. 产品形态 46:23 4.1 Agent as plugin 46:39 4.2 Agent as integrator 50:26 4.3 AI App 52:23 4.4 AI OS 53:13 4.5 AI Cloud 60:30 5. 总结 64:18
想理解 Deepseek 中的 GROP 等强化学习算法,最好先理解强化学习之 PPO 算法, 理解 PPO 并不难,只需要先梳理清楚几个概念之间的区别, 1. Reward vs Value vs Advantage, 2. Model-free vs model-based, 3. On-policy vs Off-policy, 4. Policy-based vs Value-based, 然后理解 Advantage Actor Critic (A2C) 算法的设计思路, 1. 构建学生 actor 和导师 critic 两个神经网络, 2. 学生 actor 神经网络,追求 advantage 的优化,是 policy-based 模型, 3. 导师 critic 神经网络,追求全局 value 的最优化,是 value-based 模型, 4. 导师指导学生,从而避免学生过度激进,导致训练崩溃, 到这时,理解作为 A2C 模型的改进版 PPO, 以及 Deepseek 在 PPO 基础上,进一步做的三个改进, 就水到渠成了。
树大招风,面对横扫天下的 Deepseek,目前美国发出三招,对 Deepseek 进行围剿, 1. 来源于美国的黑客组织,对 Deepseek 网站发动攻击, 2. 马斯克指责 Deepseek 训练模型时,偷偷使用违禁的 H100 GPU卡, 3. 奥特曼指责 Deepseek 通过蒸馏技术,盗取 OpenAI 的数据。 面对来势汹汹的围剿,Deepseek 如何反击?
中美竞争日趋激烈,川普政府为了限制中国产品进入美国市场,不仅对中国加税,而且对墨西哥加拿大也严厉加税。 中国企业是否可以直接入驻美国本土?哪些企业容易入驻,哪些企业不容易。
昨天花了 15 分钟,讲解 Deepseek R1-zero 的训练过程, 节目播出后,收到若干听众反馈,其中有听众想了解,如何把 Deepseek 这个通用大模型,进行专项训练,使之与企业的专业知识和内部数据库相结合,成为具有企业特色的专项模型? 我们这一期花十五分钟时间,先讲解港大马毅教授的新作,“监督微调增强记忆,强化学习举一反三”, 然后讲解 Deepseek R1 论文的第二部分,如何对 Deepseek R1-zero 进行专项训练,强化专业知识,避免违规言论,从而对 Deepseek R1-zero 再训练,进化成 R1, 最后讲讲,如何对 Deepseek R1 进行数据蒸馏,套出 Deepseek R1 的优选数据,用于训练小型模型,让小型模型具备大型模型的专业知识和严谨推理的能力。 之所以暂时没有讲 Agent 和 LoRa 这些传统的做法,是因为感觉到 Deepseek 有可能会颠覆性重构 AI 大模型本身以及下游应用范式, 所以,暂时先放下传统的 Agent 和 LoRa,放下执念,清空大脑,腾出空间,迎接 Deepseek 的颠覆性创新。
中美围绕芯片、AI、和机器人的经济和技术领域的局部竞争,已经演变为国家战略层面的竞争。 中美都输不起,中国如何打赢这场战争?
2025年1月31日,OpenAI 发布了 O1 模型的改进版 O3 mini, O3 mini 进行推理思考时,英文和中文混着讲,一会儿英文一会儿中文。 OpenAI O3 mini 是否蒸馏了 Deepseek 模型? 要回答这个问题,我们要先了解 OpenAI 的内部工作流程,Deepseek 的内部工作流程,然后两者横向比较, 本期节目花 15 分钟,用普通人都能听得懂的语言,读解 Deepseek R1-zero 模型的工作原理。
中美两国围绕芯片、AI 和机器人的经济竞争,正在演变成大国国家战略的竞争。 中国如何打赢这场战争,长处和短板分别在哪里,如何发扬优势,弥补或规避短板?
万一 OpenAI 发起法律诉讼,指控 Deepseek 通过数据蒸馏的办法,违法盗用 OpenAI 的数据,Deepseek 可以从哪几个点,反驳 OpenAI ? 先科普数据蒸馏的技术原理,然后分析 OpenAI 诉讼的软肋,最后猜测 Deepseek 的反击策略。
Deepseek 横空出世,导致英伟达股价重挫 17%,这事基本属于短期震荡。 但是英伟达可能面临比股价下降更可怕的局面,因为 Deepseek 剥开了 CUDA 框架的外壳,直接使用 PTX 汇编语言和指令集, 一旦指令集被 Deepseek 这类团队深入研究,或许 Deepseek 这些团队会提出新的指令集, 一旦有了新的指令集,就会有华为等等厂家,制造比英伟达 GPU 算力更强大的芯片,如果出现这种局面,英伟达或许重蹈 Intel 的覆辙。
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧