田丰说 - 第377集田丰对话澎湃新闻：DeepSeek V4延期发布的真相 - EarsOnMe

主播

节目简介

来源：小宇宙

之前大家都认为V4会在春节期间推出，但直到4月底才推出，你觉得这中间的原因可能有哪些？
田丰：是将训练和推理栈从CUDA/NVIDIA迁移到华为昇腾CANN的系统级工程改写，叠加千亿参数MoE训练稳定性攻关，以及梁文锋本人对训练方向的内部调整，三重因素共同造成延期。
分析一：CUDA→CANN的迁移是一场被严重低估的系统级重写
The Information的报道（经路透社转引）明确指出：V4的发布推迟，核心原因是DeepSeek团队与华为、寒武纪密切协作，对底层架构做了大量调整和重写。根据接近DeepSeek工程团队的信源，迁移中最耗时的不是算子重写，而是精度对齐——要让同一模型在NVIDIA和昇腾两套平台上产生完全一致的数学输出，需要反复调试。具体障碍包括：使用910C做1024卡集群训练时，梯度同步频繁超时；旧版CANN缺少关键算子，导致训练稳定性不足。昇腾950PR在一季度末商业化后，DeepSeek才具备了完整的推理部署条件。技术报告本身也印证了这一点：文中明确提到在NVIDIA GPU和华为昇腾NPU两个平台上均验证了Expert Parallelism方案，这不是锦上添花的兼容性说明，而是工程苦战的成果记录。一个自定义的TileLang内核体系、一套异构通信重叠方案，要在两套截然不同的指令集上达到同等数学确定性，工期无法提前预估。
分析二：MoE万亿参数的训练崩溃与梁文锋的内部意志干预
36氪等媒体援引的内部消息具体而可信：2025年中期，DeepSeek遭遇了"相对严重的训练失败"。内部人士指出："当时DeepSeek面临重新适配芯片的问题，公司内部在训练方向上也存在分歧，梁文锋提出了自己的要求，但在落地层面难以达成妥协。"这两条信息叠加，揭示了一个常被忽视的事实：梁文锋本人不只是战略决策者，也是V4技术方向的深度介入者。技术报告坦承训练中反复出现loss spike，且"简单回滚无法阻止下一次崩溃"，最终用"预判路由"和"SwiGLU截断"两种经验性方案才稳住训练——但报告也承认这两种方法"底层原理至今未充分理解"。这种"先跑通、再求解"的困境，意味着调试周期本质上不可预估。
分析三：延期是一次主动的战略赌注，而非被动的工程失误
DeepSeek用户增速67%、算力增速仅8.3%，每日算力成本超千万元人民币，今年已发生三次大规模宕机——这个运营压力说明，V4必须先在昇腾上跑通推理，才能以国产算力支撑其日益增长的服务规模。DeepSeek给华为Ascend独家提供了V4预发布访问权限，明确拒绝了NVIDIA和AMD的同等请求。这不是技术层面的排他合作，而是一个具有不可逆性的产业生态选择：阿里、字节、腾讯随即为昇腾950PR下了数十万片的批量订单，芯片价格在数周内上涨20%。从这个角度看，延期是DeepSeek主动选择的代价——用3个月的工程调试时间，换取中国AI算力供应链从"替代选项"变成"主流选项"的战略杠杆。这与梁文锋"大多数公司习惯追随而非创新"的理念一脉相承：他赶的从来不是发布档期，而是一个更大的产业棋局。

第377集田丰对话澎湃新闻：DeepSeek V4延期发布的真相

加入我们的 Discord

扫描微信二维码

播放列表

第377集 田丰对话澎湃新闻：DeepSeek V4延期发布的真相

加入我们的 Discord

扫描微信二维码

播放列表

第377集田丰对话澎湃新闻：DeepSeek V4延期发布的真相