第377集 田丰对话澎湃新闻:DeepSeek V4延期发布的真相
田丰说

第377集 田丰对话澎湃新闻:DeepSeek V4延期发布的真相

17分钟 18 1周前
节目简介
来源:小宇宙
之前大家都认为V4会在春节期间推出,但直到4月底才推出,你觉得这中间的原因可能有哪些?
田丰:是将训练和推理栈从CUDA/NVIDIA迁移到华为昇腾CANN的系统级工程改写,叠加千亿参数MoE训练稳定性攻关,以及梁文锋本人对训练方向的内部调整,三重因素共同造成延期。
分析一:CUDA→CANN的迁移是一场被严重低估的系统级重写
The Information的报道(经路透社转引)明确指出:V4的发布推迟,核心原因是DeepSeek团队与华为、寒武纪密切协作,对底层架构做了大量调整和重写。根据接近DeepSeek工程团队的信源,迁移中最耗时的不是算子重写,而是精度对齐——要让同一模型在NVIDIA和昇腾两套平台上产生完全一致的数学输出,需要反复调试。具体障碍包括:使用910C做1024卡集群训练时,梯度同步频繁超时;旧版CANN缺少关键算子,导致训练稳定性不足。昇腾950PR在一季度末商业化后,DeepSeek才具备了完整的推理部署条件。技术报告本身也印证了这一点:文中明确提到在NVIDIA GPU和华为昇腾NPU两个平台上均验证了Expert Parallelism方案,这不是锦上添花的兼容性说明,而是工程苦战的成果记录。一个自定义的TileLang内核体系、一套异构通信重叠方案,要在两套截然不同的指令集上达到同等数学确定性,工期无法提前预估。
分析二:MoE万亿参数的训练崩溃与梁文锋的内部意志干预
36氪等媒体援引的内部消息具体而可信:2025年中期,DeepSeek遭遇了"相对严重的训练失败"。内部人士指出:"当时DeepSeek面临重新适配芯片的问题,公司内部在训练方向上也存在分歧,梁文锋提出了自己的要求,但在落地层面难以达成妥协。"这两条信息叠加,揭示了一个常被忽视的事实:梁文锋本人不只是战略决策者,也是V4技术方向的深度介入者。技术报告坦承训练中反复出现loss spike,且"简单回滚无法阻止下一次崩溃",最终用"预判路由"和"SwiGLU截断"两种经验性方案才稳住训练——但报告也承认这两种方法"底层原理至今未充分理解"。这种"先跑通、再求解"的困境,意味着调试周期本质上不可预估。
分析三:延期是一次主动的战略赌注,而非被动的工程失误
DeepSeek用户增速67%、算力增速仅8.3%,每日算力成本超千万元人民币,今年已发生三次大规模宕机——这个运营压力说明,V4必须先在昇腾上跑通推理,才能以国产算力支撑其日益增长的服务规模。DeepSeek给华为Ascend独家提供了V4预发布访问权限,明确拒绝了NVIDIA和AMD的同等请求。这不是技术层面的排他合作,而是一个具有不可逆性的产业生态选择:阿里、字节、腾讯随即为昇腾950PR下了数十万片的批量订单,芯片价格在数周内上涨20%。从这个角度看,延期是DeepSeek主动选择的代价——用3个月的工程调试时间,换取中国AI算力供应链从"替代选项"变成"主流选项"的战略杠杆。这与梁文锋"大多数公司习惯追随而非创新"的理念一脉相承:他赶的从来不是发布档期,而是一个更大的产业棋局。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧