田丰说 - 第378集田丰对话澎湃新闻：用图书馆管理员的故事理解DeepSeek V4核心技术 - EarsOnMe

主播

节目简介

来源：小宇宙

主持人：V4有哪些亮点？比如百万Token的超长上下文，这已经不单是“能塞下一本书”了。这会解锁哪些以前完全做不到的新能力？另外，我也注意到架构上提到的“压缩稀疏注意力”(CSA和HCA)和“流形约束超连接”，能不能用大白话给我们解释下，这些技术创新是怎么把模型性能做得更好的？
田丰：我来给大家讲个图书馆里聪明管理员的故事，来说明DeepSeek V4核心技术CSA（压缩稀疏注意力）与HCA（重度压缩注意力）原理。
想象你是一家超大型图书馆的管理员。这座图书馆很特别：每当一位读者走进来提问，你都必须把馆里所有的书翻一遍，才能给出答案。
图书馆只有1000本书的时候，还勉强应付。但现在图书馆扩张到了100万本书——这相当于DeepSeek V4支持的百万Token上下文。按照老规矩，读者每问一个问题，你就要翻阅100万本书，然后再把所有书两两对比相关性。书的数量翻倍，工作量翻四倍，这在数学上叫"平方级增长"。这已经不是慢，而是根本做不到。
第一个聪明方案：CSA——"先粗读，再精读"
图书馆来了一位新管理员，他说：我们换个方法。
第一步，做摘要。他把书架上每4本书的核心内容，压缩成一张摘要卡片，放在书架外面。100万本书，就变成了25万张摘要卡。这叫压缩（Compression Rate = 4）。
第二步，快速扫描。读者来问问题，管理员不去翻书，先快速扫一遍这25万张摘要卡，找出最相关的那几百张。这个"快速扫描的能力"，就是论文里说的"闪电索引器"（Lightning Indexer）——它是一个轻量级的判断机器，专门做"这张摘要卡值不值得精读"的决定。
第三步，精读要处。只把筛出来的那几百张摘要卡对应的书，拿出来仔细读。整个过程：粗读全部，精读少数。
这就是CSA（压缩稀疏注意力）的本质——不是记住一切，而是有选择性地记忆。
第二个聪明方案：HCA（重度压缩注意力）——"极度浓缩的提纲"
还有另一位管理员，他的方法更激进。
他说：我们直接把每128本书压缩成一张卡片。这样100万本书只剩下约7800张卡。卡的数量极少，即使全部看完也很快——但每张卡的信息损失也更多，相当于一本《战争与和平》只剩下三行摘要。
这就是HCA（重度压缩注意力）——牺牲精度，换取极致的内存压缩。它不像CSA那样再去筛选，直接把所有压缩卡都看一遍：虽然粗糙，但速度极快，内存占用极小。
两个方案交替使用，像流水线一样高效
DeepSeek V4在深层网络中，把CSA和HCA交替排列。这像工厂的两条流水线：
CSA那条线：精细，保证关键信息不丢失；
HCA那条线：粗放，保证整体效率和内存控制。
两者配合的最终效果是：在100万Token的情境下，存储所有历史信息所需的内存（KV缓存），从原来的标准方案压缩到了约2%。
用图书馆打比方：原来需要100个书架来放检索卡，现在只需要2张桌子，而且查询速度和准确率几乎没有明显下降。
这就是为什么DeepSeek V4能把"百万Token上下文"从实验室概念变成日常可用的API功能——核心不是算力更强，而是索引方式更聪明。

第378集田丰对话澎湃新闻：用图书馆管理员的故事理解DeepSeek V4核心技术

加入我们的 Discord

扫描微信二维码

播放列表

第378集 田丰对话澎湃新闻：用图书馆管理员的故事理解DeepSeek V4核心技术

加入我们的 Discord

扫描微信二维码

播放列表

第378集田丰对话澎湃新闻：用图书馆管理员的故事理解DeepSeek V4核心技术