Album
时长:
9分钟
播放:
13
发布:
1周前
简介...
https://xiaoyuzhoufm.com
🎙️ 「油管解读」系列
解读油管上的深度科技内容,用中文讲述AI行业的核心动态,带上游戏行业从业者的视角。
📌 本期内容
2026年1月1日,DeepSeek发布了一篇新论文,名字叫mHC,流形约束超连接。梁文锋本人出现在19位作者名单中。
这篇论文动的是Transformer架构里十年没人敢动的地基——残差连接。这块砖是2015年何恺明提出来的,此后GPT、Claude、Llama、DeepSeek,几乎所有主流大模型都站在这块砖上面。
🔥 核心内容
1. 技术背景:从何恺明到字节再到DeepSeek2015年何恺明提出残差连接,解决了深层网络的梯度消失问题
2024年字节提出超连接,性能提升但训练不稳定
DeepSeek的mHC解决了超连接的稳定性问题
2. 问题出在哪超连接打破了"恒等映射"属性
信号每过一层可能被放大,累积后呈指数级增长
27B模型中信号最大放大倍数接近3000
3. DeepSeek的解法把权重矩阵约束在"双随机矩阵"空间
信号通过后相当于加权平均,不会被无限放大
只带来6.7%的额外训练时间开销
4. 工程能力才是门槛手写底层CUDA内核代码
算子融合、选择性重计算、通信优化
把理论方案变成可落地的工程实现
💡 对游戏行业/项目管理的启示
* "稳定性"和"性能"不是二选一,高手会找到同时满足的第三条路
* "改A动到B"的问题根源是缺少约束,要从架构层面设计护栏
* 工程落地能力是真正的护城河,好方案谁都能写,难的是跑通、跑快、跑稳
📎 原片信息
基于DeepSeek论文《mHC: Manifold-Constrained Hyper-Connections》(arXiv:2512.24880)及相关技术解读
🔗 延伸内容
* [游戏项目管理进阶课程]
* [模拟面试 / 简历优化服务]
* [游戏 PM 成长社区(含工作思考与案例沉淀)]
评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧