主播
节目简介
来源:小宇宙
主持人:V4有哪些亮点?比如百万Token的超长上下文,这已经不单是“能塞下一本书”了。这会解锁哪些以前完全做不到的新能力?另外,我也注意到架构上提到的“压缩稀疏注意力”(CSA和HCA)和“流形约束超连接”,能不能用大白话给我们解释下,这些技术创新是怎么把模型性能做得更好的?
田丰:我来给大家讲个图书馆里聪明管理员的故事,来说明DeepSeek V4核心技术CSA(压缩稀疏注意力)与HCA(重度压缩注意力)原理。
想象你是一家超大型图书馆的管理员。这座图书馆很特别:每当一位读者走进来提问,你都必须把馆里所有的书翻一遍,才能给出答案。
图书馆只有1000本书的时候,还勉强应付。但现在图书馆扩张到了100万本书——这相当于DeepSeek V4支持的百万Token上下文。按照老规矩,读者每问一个问题,你就要翻阅100万本书,然后再把所有书两两对比相关性。书的数量翻倍,工作量翻四倍,这在数学上叫"平方级增长"。这已经不是慢,而是根本做不到。
第一个聪明方案:CSA——"先粗读,再精读"
图书馆来了一位新管理员,他说:我们换个方法。
第一步,做摘要。 他把书架上每4本书的核心内容,压缩成一张摘要卡片,放在书架外面。100万本书,就变成了25万张摘要卡。这叫压缩(Compression Rate = 4)。
第二步,快速扫描。 读者来问问题,管理员不去翻书,先快速扫一遍这25万张摘要卡,找出最相关的那几百张。这个"快速扫描的能力",就是论文里说的"闪电索引器"(Lightning Indexer)——它是一个轻量级的判断机器,专门做"这张摘要卡值不值得精读"的决定。
第三步,精读要处。 只把筛出来的那几百张摘要卡对应的书,拿出来仔细读。整个过程:粗读全部,精读少数。
这就是CSA(压缩稀疏注意力)的本质——不是记住一切,而是有选择性地记忆。
第二个聪明方案:HCA(重度压缩注意力)——"极度浓缩的提纲"
还有另一位管理员,他的方法更激进。
他说:我们直接把每128本书压缩成一张卡片。这样100万本书只剩下约7800张卡。卡的数量极少,即使全部看完也很快——但每张卡的信息损失也更多,相当于一本《战争与和平》只剩下三行摘要。
这就是HCA(重度压缩注意力)——牺牲精度,换取极致的内存压缩。它不像CSA那样再去筛选,直接把所有压缩卡都看一遍:虽然粗糙,但速度极快,内存占用极小。
两个方案交替使用,像流水线一样高效
DeepSeek V4在深层网络中,把CSA和HCA交替排列。这像工厂的两条流水线:
CSA那条线:精细,保证关键信息不丢失;
HCA那条线:粗放,保证整体效率和内存控制。
两者配合的最终效果是:在100万Token的情境下,存储所有历史信息所需的内存(KV缓存),从原来的标准方案压缩到了约2%。
用图书馆打比方:原来需要100个书架来放检索卡,现在只需要2张桌子,而且查询速度和准确率几乎没有明显下降。
这就是为什么DeepSeek V4能把"百万Token上下文"从实验室概念变成日常可用的API功能——核心不是算力更强,而是索引方式更聪明。
田丰:我来给大家讲个图书馆里聪明管理员的故事,来说明DeepSeek V4核心技术CSA(压缩稀疏注意力)与HCA(重度压缩注意力)原理。
想象你是一家超大型图书馆的管理员。这座图书馆很特别:每当一位读者走进来提问,你都必须把馆里所有的书翻一遍,才能给出答案。
图书馆只有1000本书的时候,还勉强应付。但现在图书馆扩张到了100万本书——这相当于DeepSeek V4支持的百万Token上下文。按照老规矩,读者每问一个问题,你就要翻阅100万本书,然后再把所有书两两对比相关性。书的数量翻倍,工作量翻四倍,这在数学上叫"平方级增长"。这已经不是慢,而是根本做不到。
第一个聪明方案:CSA——"先粗读,再精读"
图书馆来了一位新管理员,他说:我们换个方法。
第一步,做摘要。 他把书架上每4本书的核心内容,压缩成一张摘要卡片,放在书架外面。100万本书,就变成了25万张摘要卡。这叫压缩(Compression Rate = 4)。
第二步,快速扫描。 读者来问问题,管理员不去翻书,先快速扫一遍这25万张摘要卡,找出最相关的那几百张。这个"快速扫描的能力",就是论文里说的"闪电索引器"(Lightning Indexer)——它是一个轻量级的判断机器,专门做"这张摘要卡值不值得精读"的决定。
第三步,精读要处。 只把筛出来的那几百张摘要卡对应的书,拿出来仔细读。整个过程:粗读全部,精读少数。
这就是CSA(压缩稀疏注意力)的本质——不是记住一切,而是有选择性地记忆。
第二个聪明方案:HCA(重度压缩注意力)——"极度浓缩的提纲"
还有另一位管理员,他的方法更激进。
他说:我们直接把每128本书压缩成一张卡片。这样100万本书只剩下约7800张卡。卡的数量极少,即使全部看完也很快——但每张卡的信息损失也更多,相当于一本《战争与和平》只剩下三行摘要。
这就是HCA(重度压缩注意力)——牺牲精度,换取极致的内存压缩。它不像CSA那样再去筛选,直接把所有压缩卡都看一遍:虽然粗糙,但速度极快,内存占用极小。
两个方案交替使用,像流水线一样高效
DeepSeek V4在深层网络中,把CSA和HCA交替排列。这像工厂的两条流水线:
CSA那条线:精细,保证关键信息不丢失;
HCA那条线:粗放,保证整体效率和内存控制。
两者配合的最终效果是:在100万Token的情境下,存储所有历史信息所需的内存(KV缓存),从原来的标准方案压缩到了约2%。
用图书馆打比方:原来需要100个书架来放检索卡,现在只需要2张桌子,而且查询速度和准确率几乎没有明显下降。
这就是为什么DeepSeek V4能把"百万Token上下文"从实验室概念变成日常可用的API功能——核心不是算力更强,而是索引方式更聪明。