https://babi.com/

晚点聊 LateTalk - 143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进 - EarsOnMe - 精选播客,一听即合
Album
时长:
87分钟
播放:
1.23万
发布:
2个月前
简介...
https://xiaoyuzhoufm.com
「不仅是提效,线性注意力在数据受限情况下的更多潜力。」
今年初的两期节目(103、104 期)里也讨论过注意力机制,这是大语言模型的核心机制。
9 月 和 10 月,阿里和 Kimi 都发布了相关进展,而且都用到了一个线性注意力成果,DeltaNet。
本期嘉宾,就是 DeltaNet 的核心贡献者之一,现在在 MIT 读博士的杨松琳,她也是线性注意力开源小组 FLA 的发起者。
这期节目在 25 分钟以前很硬核,松琳讲了线性注意力和 DeltaNet 的发展脉络,为何 21 年刚被提出时没引起太多注意,后来怎么进化的。
25 分钟以后,是关注 AI 比较多的文科生,比如我也能完全跟上的部分。我们讨论了,重新去做 full attention 的 MiniMax,以及未来要在旗舰模型上用线性注意力的 Kimi 和阿里的不同选择;线性注意力的优劣势;以及一些脑洞——如果算力无限,还需要线性注意力?松琳给了很有启发的回答。
最后半小时,松琳分享了她作为研究员,怎么习得交叉技能的,怎么开始发起FLA小组等成长经历。
本期嘉宾:杨松琳,MIT 博士生在读,DeltaNet 贡献者
本期主播:程曼祺,《晚点 LatePost》科技报道负责人
时间线跳转:
-DeltaNet 的诞生演进与近期动向
02:07 注意力机制是什么?
04:21 DeltaNet 的提出,用 Delta Rule 来增强 in-context retrieval
09:41 近年的改进主要是模型架构,而非“更新规则”
14:25 阿里 Qwen 团队 apple to apple 比较几种线性注意力混合方式;Kimi Linear 对 Gated Delta 的具体改进
17:00 更新规则和模型架构改进的区别:更新规则是在算子层面“动刀”
19:50 算法出身,自学 Infra;学习 Hazy Research Group 的风格
23:28 Qwen 和 Kimi 大概率在下一代旗舰模型用线性注意力,而 MiniMax 用回 full attention;DeepSeek 目前释放的改进都是“稀疏注意力”
37:07 稀疏注意力 vs 线性注意力潜力对比
39:40 即使算力无限,线性注意力仍有价值,因为它在有限数据中的学习效率更高,而高质量数据正是当前瓶颈
42:28 线性注意力在状态追踪上也可能有效果优势,而状态追踪对 Agentic 很重要
47:33 线性注意力的“归纳偏见”和 The Bitter Lesson:先验与 scalable 并不矛盾
49:30 回应 RWKV(原始智能)彭博:从未说发明 DeltaNet,一直在给 Schmidhuber 署名
-Householder 与 DeltaNet 的联想,像运营产品一样运营技术社区
51:51 关注注意力改进的起点,数学知识、Infra,交叉能力怎么积累?
58:48 发现 Hoseholder 累乘和 DeltaNet 关联的过程
01:02:44 AI 何时能像人这样产生联想?——Prompt 合适,大模型应该能独立发现这个算法
01:04:11 FLA 小组的产生,受 Tri Dao 做 FlashAttention 的启发,像运营产品一样运营技术社区;Kimi 从 FLA 小组招募了线性注意力研究者
-注意力改进的未来趋势
01:11:24 稀疏注意力的改进,DeepSeek 年初 NSA 到最近 DSA 的变化
01:16:44 线性注意力的改进,从线性混合全注意力,到线性混合稀疏注意力(比如混合 DeepSeek DSA 和 Kimi KDA 😀
01:21:10 更广泛来说,关注何种模型演进?——持续学习
相关链接:
图文版:《再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客》
晚点聊 103 期:《用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进》
晚点聊 104 期:《我给线性注意力找“金主”,字节 say No,MiniMax say Yes》
剪辑制作:Nick
附录,本期提到的一些论文(更多具体名词解释,见本期文字版):
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
Linear Transformers Are Secretly Fast Weight Programmers
Parallelizing Linear Transformers with the Delta Rule over Sequence Length
Gated Linear Attention Transformers with Hardware-Efficient Training
Recurrence-Complete Frame-based Action Models
本期主播:
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
评价...

空空如也

小宇宙热门评论...
panzhixiang
2个月前 江苏
48
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
panzhixiang
2个月前 江苏
45
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
panzhixiang
2个月前 江苏
45
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
panzhixiang
2个月前 江苏
42
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
panzhixiang
2个月前 江苏
41
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
梅岩
2个月前 四川
39
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
panzhixiang
2个月前 江苏
35
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
梅岩
2个月前 四川
32
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
梅岩
2个月前 四川
30
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
panzhixiang
2个月前 江苏
29
这一期嘉宾的声音让人听的不舒服,听起来没劲,甚至有点看不起人和不耐烦的鼻音
搞笑女演员
2个月前 上海
26
彪悍的女人没有情绪哈哈哈哈哈
梅岩
2个月前 四川
26
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
梅岩
2个月前 四川
25
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
搞笑女演员
2个月前 上海
24
彪悍的女人没有情绪哈哈哈哈哈
搞笑女演员
2个月前 上海
23
彪悍的女人没有情绪哈哈哈哈哈
SuperFang
2个月前 上海
21
嘉宾情绪太down了,效果不好。
搞笑女演员
2个月前 上海
21
彪悍的女人没有情绪哈哈哈哈哈
SuperFang
2个月前 上海
20
嘉宾情绪太down了,效果不好。
SuperFang
2个月前 上海
20
嘉宾情绪太down了,效果不好。
搞笑女演员
2个月前 上海
20
彪悍的女人没有情绪哈哈哈哈哈
叶子泡泡
2个月前 北京
19
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
SuperFang
2个月前 上海
19
嘉宾情绪太down了,效果不好。
SuperFang
2个月前 上海
19
嘉宾情绪太down了,效果不好。
SuperFang
2个月前 上海
17
嘉宾情绪太down了,效果不好。
搞笑女演员
2个月前 上海
16
彪悍的女人没有情绪哈哈哈哈哈
梅岩
2个月前 四川
15
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
SuperFang
2个月前 上海
15
嘉宾情绪太down了,效果不好。
搞笑女演员
2个月前 上海
15
彪悍的女人没有情绪哈哈哈哈哈
叶子泡泡
2个月前 北京
12
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
夜莺与玫瑰0
2个月前 重庆
11
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
叶子泡泡
2个月前 北京
11
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
梅岩
2个月前 四川
11
我强制克制自己只关心她说的内容,不管她的语调语气,但是过了5分钟就无法做到,我特别想掐人脖子
夜莺与玫瑰0
2个月前 重庆
10
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
夜莺与玫瑰0
2个月前 重庆
10
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
平静的威尔逊
2个月前 北京
9
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
xstarcity
2个月前 广东
9
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
陀佛
2个月前 北京
9
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
陀佛
2个月前 北京
9
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
陀佛
2个月前 北京
9
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
神经蛙_OgdT
2个月前 河北
8
嘉宾讲话特别酷~👍👍👍
Joes东
2个月前 广东
8
这种风格不太适合播客 确实有点听不下去😂
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
神经蛙_OgdT
2个月前 河北
8
嘉宾讲话特别酷~👍👍👍
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
神经蛙_OgdT
2个月前 河北
8
嘉宾讲话特别酷~👍👍👍
夜莺与玫瑰0
2个月前 重庆
8
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
神经蛙_OgdT
2个月前 河北
8
嘉宾讲话特别酷~👍👍👍
陀佛
2个月前 北京
8
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
夜莺与玫瑰0
2个月前 重庆
8
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
平静的威尔逊
2个月前 北京
8
可能是此前充满少年感的声音听多了吧,这次学术报告式的分享一下子把我拉回对于博士的刻板印象
阿互
2个月前 北京
7
嘉宾的声音透漏着一种天才气质😏
曼祺_MatchQ
2个月前 北京
7
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
曼祺_MatchQ
2个月前 北京
7
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
xstarcity
2个月前 广东
7
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
曼祺_MatchQ
2个月前 北京
7
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
xstarcity
2个月前 广东
7
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
曼祺_MatchQ
2个月前 北京
7
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
xstarcity
2个月前 广东
7
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
叶子泡泡
2个月前 北京
7
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
曼祺_MatchQ
2个月前 北京
7
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
神经蛙_OgdT
2个月前 河北
7
嘉宾讲话特别酷~👍👍👍
陀佛
2个月前 北京
7
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
夜莺与玫瑰0
2个月前 重庆
7
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
夜莺与玫瑰0
2个月前 重庆
7
10:31 抱意思,硬核的内容冲过了大脑,只留下学霸如此松弛的语感。
阿互
2个月前 北京
6
嘉宾的声音透漏着一种天才气质😏
阿互
2个月前 北京
6
嘉宾的声音透漏着一种天才气质😏
阿互
2个月前 北京
6
嘉宾的声音透漏着一种天才气质😏
阿互
2个月前 北京
6
嘉宾的声音透漏着一种天才气质😏
xstarcity
2个月前 广东
6
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
曼祺_MatchQ
2个月前 北京
6
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
xstarcity
2个月前 广东
6
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
xstarcity
2个月前 广东
6
02:00 曼琪一点不像文科生,听起来就像算法功底很深的样子,足够唬住很多理工科的
starryduoo
2个月前 上海
5
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
章鲤
2个月前 浙江
5
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
曼祺_MatchQ
2个月前 北京
5
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
starryduoo
2个月前 上海
5
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
Joes东
2个月前 广东
5
这种风格不太适合播客 确实有点听不下去😂
曼祺_MatchQ
2个月前 北京
5
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
starryduoo
2个月前 上海
5
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
Joes东
2个月前 广东
5
这种风格不太适合播客 确实有点听不下去😂
曼祺_MatchQ
2个月前 北京
5
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
starryduoo
2个月前 上海
5
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
曼祺_MatchQ
2个月前 北京
5
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
starryduoo
2个月前 上海
5
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
阿互
2个月前 北京
5
嘉宾的声音透漏着一种天才气质😏
神经蛙_OgdT
2个月前 河北
5
嘉宾讲话特别酷~👍👍👍
陀佛
2个月前 北京
5
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
阿互
2个月前 北京
5
嘉宾的声音透漏着一种天才气质😏
曼祺_MatchQ
2个月前 北京
5
本期是继 103 和 104 期后,再次聊注意力机制。我邀请了 DeltaNet 的核心贡献者杨松琳, 近期 Qwen-3 Next 和 Kimi Linear 中都使用了 DeltaNet。 前 25 分钟很硬核,我自己比较难跟上[皱眉],但分享给更专业的听众; 25 分钟之后,我们讨论了当前线性注意力的一些特点: -为什么都要混全注意力?为何还较少用到旗舰模型上? -Qwen、Kimi、MiniMax、DeepSeek 在注意力改进上的不同选择? -以及一些脑洞:如果算力无限,还需要线性注意力改进吗?——bound 住我们的不仅是算力,还有数据,而线性注意力的归纳偏见(有一定先验)等特性,让它在数据受限的情况下可能更有学习效率。 今天稍晚也会在《晚点科技》发布本期的文字版,注释会更详细,到时我会把图文链接更新到 shownotes 和留言区。
神经蛙_OgdT
2个月前 河北
5
嘉宾讲话特别酷~👍👍👍
陀佛
2个月前 北京
5
难得在此节目听到一位女性的嘉宾,希望以后有更多哈。
章鲤
2个月前 浙江
4
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
章鲤
2个月前 浙江
4
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
章鲤
2个月前 浙江
4
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
Joes东
2个月前 广东
4
这种风格不太适合播客 确实有点听不下去😂
章鲤
2个月前 浙江
4
看评论好多人不喜欢嘉宾声音,我倒是觉得挺好听的
Joes东
2个月前 广东
4
这种风格不太适合播客 确实有点听不下去😂
叶子泡泡
2个月前 北京
4
之前听了松琳大佬的两期播客,罕见的一流研究员,三言两语就能揭示各路方法的本质,超级惊喜,能听到是我的福气。但一看评论区惊呆了,不是探讨知识而是评价声音是否让人舒服。
曼祺_MatchQ
2个月前 北京
4
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
Joes东
2个月前 广东
4
这种风格不太适合播客 确实有点听不下去😂
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
xstarcity
2个月前 广东
3
1:16:19 关于sparse attention 的 KV CACHE 压缩方向,也有有不少论文。 影响力最大的是Double Sparsity: Post-Training Sparse Attention with Double Sparsity。理由:最早发表(2024-08),已有 ~5-7 次引用(被后续 KV 压缩论文引用,如 HashAttention ),并在 Hugging Face Papers 等平台广泛讨论。 发表机构最好的是Double Sparsity 和 RetrievalAttention 并列。Double Sparsity 来自 UC Berkeley(顶尖 AI 研究机构,作者包括 Ion Stoica 等 RISELab 核心成员);RetrievalAttention 来自 Microsoft Research(工业顶尖,作者超 10 人,强调工程落地)。 这些论文多采用 token eviction(基于注意力分数或重要性度量驱逐低贡献 KV)、low-rank/sparse projection(e.g., 潜在空间或字典学习表示 KV)、或 retrieval-based 方法(动态检索而非全保留)。Sparse attention 确保只计算关键 query-key 对,避免全量 softmax。 不完全保留 KV 可能导致累积误差(如上下文丢失),解决方案包括周期性稠密修正(e.g., ReSA)或回顾性更新(RetroAttention)。压缩率越高,准确率损失越大,但多数方法在 <1% 损失下实现 4-6 倍内存节省。
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
xstarcity
2个月前 广东
3
1:16:19 关于sparse attention 的 KV CACHE 压缩方向,也有有不少论文。 影响力最大的是Double Sparsity: Post-Training Sparse Attention with Double Sparsity。理由:最早发表(2024-08),已有 ~5-7 次引用(被后续 KV 压缩论文引用,如 HashAttention ),并在 Hugging Face Papers 等平台广泛讨论。 发表机构最好的是Double Sparsity 和 RetrievalAttention 并列。Double Sparsity 来自 UC Berkeley(顶尖 AI 研究机构,作者包括 Ion Stoica 等 RISELab 核心成员);RetrievalAttention 来自 Microsoft Research(工业顶尖,作者超 10 人,强调工程落地)。 这些论文多采用 token eviction(基于注意力分数或重要性度量驱逐低贡献 KV)、low-rank/sparse projection(e.g., 潜在空间或字典学习表示 KV)、或 retrieval-based 方法(动态检索而非全保留)。Sparse attention 确保只计算关键 query-key 对,避免全量 softmax。 不完全保留 KV 可能导致累积误差(如上下文丢失),解决方案包括周期性稠密修正(e.g., ReSA)或回顾性更新(RetroAttention)。压缩率越高,准确率损失越大,但多数方法在 <1% 损失下实现 4-6 倍内存节省。
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
xstarcity
2个月前 广东
3
1:16:19 关于sparse attention 的 KV CACHE 压缩方向,也有有不少论文。 影响力最大的是Double Sparsity: Post-Training Sparse Attention with Double Sparsity。理由:最早发表(2024-08),已有 ~5-7 次引用(被后续 KV 压缩论文引用,如 HashAttention ),并在 Hugging Face Papers 等平台广泛讨论。 发表机构最好的是Double Sparsity 和 RetrievalAttention 并列。Double Sparsity 来自 UC Berkeley(顶尖 AI 研究机构,作者包括 Ion Stoica 等 RISELab 核心成员);RetrievalAttention 来自 Microsoft Research(工业顶尖,作者超 10 人,强调工程落地)。 这些论文多采用 token eviction(基于注意力分数或重要性度量驱逐低贡献 KV)、low-rank/sparse projection(e.g., 潜在空间或字典学习表示 KV)、或 retrieval-based 方法(动态检索而非全保留)。Sparse attention 确保只计算关键 query-key 对,避免全量 softmax。 不完全保留 KV 可能导致累积误差(如上下文丢失),解决方案包括周期性稠密修正(e.g., ReSA)或回顾性更新(RetroAttention)。压缩率越高,准确率损失越大,但多数方法在 <1% 损失下实现 4-6 倍内存节省。
fiveclock
2个月前 广东
3
嘉宾的讲话方式让人很难受,让人听不进去
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
fiveclock
2个月前 广东
3
嘉宾的讲话方式让人很难受,让人听不进去
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
曼祺_MatchQ
2个月前 北京
3
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
binbinbin_qhnb
2个月前 河南
3
哈哈 我听着感觉挺有意思的
Joes东
2个月前 广东
3
这种风格不太适合播客 确实有点听不下去😂
曼祺_MatchQ
2个月前 北京
3
图文版链接:https://mp.weixin.qq.com/s/bjRAqIn9sEVE03dW6ToEEg (shownotes 里也已更新
monkeyfu
2个月前 美国
2
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
gpCigqFeC52
2个月前 辽宁
2
来了
monkeyfu
2个月前 美国
2
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
gpCigqFeC52
2个月前 辽宁
2
来了
monkeyfu
2个月前 美国
2
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
gpCigqFeC52
2个月前 辽宁
2
来了
monkeyfu
2个月前 美国
2
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
gpCigqFeC52
2个月前 辽宁
2
来了
monkeyfu
2个月前 美国
2
非常好的节目,嘉宾和主持人辛苦了。 我有一段时间没有关注线性注意力机制了,这期节目让我catch-up了很多工作,节省了很多时间。 内容干活满满,一边听一边思考,完全不在乎听感。 隔壁张小珺那期节目也很好,这里主持人曼祺的提问更有深度和切入要点。不过张小珺那边基本上总能约到靠谱的嘉宾。 至于RWKV社区,他们的氛围确实一言难尽。。。
gpCigqFeC52
2个月前 辽宁
2
来了
starryduoo
2个月前 上海
2
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
小逸Louie
2个月前 上海
2
1:10:17 原来是经典二次元stereotype吗哈哈哈哈哈哈哈。松琳姐这个冷幽默
宫村伊澄
2个月前 北京
2
不是所有人的声音都适合录播客的
虽燃-
2个月前 上海
2
我一开始听得时候也感觉非常晦涩难懂,很容易走神,但是对着字幕,基本上可以理解个大概。感觉就像做英语听力,听起来很难,但读文本的时候会发现“原来说的内容是这样的”。嘉宾还是尽她的能力,想办法给普通人解释。
gpCigqFeC52
2个月前 辽宁
2
来了
fiveclock
2个月前 广东
2
嘉宾的讲话方式让人很难受,让人听不进去
Penise不说话
2个月前 河北
2
1:08:03是不是门槛太高了, 不太适合文科小白听😫,只能捕捉到一些术语和简单的大模型运行逻辑……蹲一个文字版。
starryduoo
2个月前 上海
2
“我们到底在用注意力逼近什么能力”,尝试讲讲我的理解,一起参与理解 注意力机制,简单讲就是一种动态信息的路由机制,一个加权求和的过程。Query(Q) 现在的我想要找什么;Key(K) 世界的信息索引;Value(V) 具体的信息内容;Attention(Q,K,V),在复杂世界里,如何决定什么是重要的。(Q和K有多么匹配,就是注意力分数,比如softmax归一化) 和我们每天如何分配注意力资源没啥本质区别。 不同的流派就是不同角色不同的世界观, 角色1.原教旨主义的Full Attention ,决不妥协,每个token都必须看到其他token,压缩会导致智商下降。这个世界就是复杂但真实的。不是attention不行,是我们算不起,我们只是设备不够,我们还能提高硬件执行效率。 角色2.实用主义的稀疏注意力,局部+关键连接也可以看见世界。我们断舍离、抓大放小,10公里以外的词就没必要关注了,附近的词搞清楚语法关系,几个全局的锚点关键词定好,虽然说长距离文本我们肯定比不上Full Attention,但我们先战术性存在着。我们很实用。 角色3. 理想数学派的线性注意力,世界是可折叠的。万物之间的关系,可以变换到一个潜在空间中,被压缩、再展开。类似于傅立叶变换、量子态投影。换种活法,重塑时空。流动的记忆,不一定完美,但如果说将来做到状态(state)足够大,压缩也可能是无损的呢?
小逸Louie
2个月前 上海
2
1:10:17 原来是经典二次元stereotype吗哈哈哈哈哈哈哈。松琳姐这个冷幽默
宫村伊澄
2个月前 北京
2
不是所有人的声音都适合录播客的
虽燃-
2个月前 上海
2
我一开始听得时候也感觉非常晦涩难懂,很容易走神,但是对着字幕,基本上可以理解个大概。感觉就像做英语听力,听起来很难,但读文本的时候会发现“原来说的内容是这样的”。嘉宾还是尽她的能力,想办法给普通人解释。
胡MiropeYuhao
1个月前 浙江
1
确实是华人一流的一线研究者,感谢这期节目,能听到这么多高价值信息
EiskaltSuper
2个月前 德国
1
声音确实。。。听着难受,不够清晰
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧