143: 再聊 Attention:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进

晚点聊 LateTalk

「不仅是提效,线性注意力在数据受限情况下的更多潜力。」 今年初的两期节目(103、104 期)里也讨论过注意力机制,这是大语言模型的核心机制。 9 月 和 10 月,阿里和 Kimi 都发布了相关进展,而且都用到了一个线性注意力成果,DeltaNet。 本期嘉宾,就是 DeltaNet 的核心贡献者之一,现在在 MIT 读博士的杨松琳,她也是线性注意力开源小组 FLA 的发起者。 这期节目在 25 分钟以前很硬核,松琳讲了线性注意力和 DeltaNet 的发展脉络,为何 21 年刚被提出时没引起太多注意,后来怎么进化的。 25 分钟以后,是关注 AI 比较多的文科生,比如我也能完全跟上的部分。我们讨论了,重新去做 full attention 的 MiniMax,以及未来要在旗舰模型上用线性注意力的 Kimi 和阿里的不同选择;线性注意力的优劣势;以及一些脑洞——如果算力无限,还需要线性注意力?松琳给了很有启发的回答。 最后半小时,松琳分享了她作为研究员,怎么习得交叉技能的,怎么开始发起FLA小组等成长经历。 本期嘉宾:杨松琳,MIT 博士生在读,DeltaNet 贡献者 本期主播:程曼祺,《晚点 LatePost》科技报道负责人 时间线跳转: -DeltaNet 的诞生演进与近期动向 02:07 注意力机制是什么? 04:21 DeltaNet 的提出,用 Delta Rule 来增强 in-context retrieval 09:41 近年的改进主要是模型架构,而非“更新规则” 14:25 阿里 Qwen 团队 apple to apple 比较几种线性注意力混合方式;Kimi Linear 对 Gated Delta 的具体改进 17:00 更新规则和模型架构改进的区别:更新规则是在算子层面“动刀” 19:50 算法出身,自学 Infra;学习 Hazy Research Group 的风格 23:28 Qwen 和 Kimi 大概率在下一代旗舰模型用线性注意力,而 MiniMax 用回 full attention;DeepSeek 目前释放的改进都是“稀疏注意力” 37:07 稀疏注意力 vs 线性注意力潜力对比 39:40 即使算力无限,线性注意力仍有价值,因为它在有限数据中的学习效率更高,而高质量数据正是当前瓶颈 42:28 线性注意力在状态追踪上也可能有效果优势,而状态追踪对 Agentic 很重要 47:33 线性注意力的“归纳偏见”和 The Bitter Lesson:先验与 scalable 并不矛盾 49:30 回应 RWKV(原始智能)彭博:从未说发明 DeltaNet,一直在给 Schmidhuber 署名 -Householder 与 DeltaNet 的联想,像运营产品一样运营技术社区 51:51 关注注意力改进的起点,数学知识、Infra,交叉能力怎么积累? 58:48 发现 Hoseholder 累乘和 DeltaNet 关联的过程 01:02:44 AI 何时能像人这样产生联想?——Prompt 合适,大模型应该能独立发现这个算法 01:04:11 FLA 小组的产生,受 Tri Dao 做 FlashAttention 的启发,像运营产品一样运营技术社区;Kimi 从 FLA 小组招募了线性注意力研究者 -注意力改进的未来趋势 01:11:24 稀疏注意力的改进,DeepSeek 年初 NSA 到最近 DSA 的变化 01:16:44 线性注意力的改进,从线性混合全注意力,到线性混合稀疏注意力(比如混合 DeepSeek DSA 和 Kimi KDA 😀 01:21:10 更广泛来说,关注何种模型演进?——持续学习 相关链接: 图文版:《再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客》 晚点聊 103 期:《用Attention串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进》 晚点聊 104 期:《我给线性注意力找“金主”,字节 say No,MiniMax say Yes》 剪辑制作:Nick 附录,本期提到的一些论文(更多具体名词解释,见本期文字版): Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention Linear Transformers Are Secretly Fast Weight Programmers Parallelizing Linear Transformers with the Delta Rule over Sequence Length Gated Linear Attention Transformers with Hardware-Efficient Training Recurrence-Complete Frame-based Action Models 本期主播: 小红书@曼祺_火柴Q即刻@曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:

87分钟
5k+
2天前

vol.486 怪屋迷案2 ch.6-9 纵火之谜的双重解答 睡觉修行电话拉新?重生之馆异闻录

IN核公园

【展开此处,查看时间轴和图像补充!】→ 感谢妙界品牌对本期节目的大力支持。点击进入专属购买链接: 1、淘宝 ; 2、京东 【粉丝福利 IN核公园 x 妙界】 因为要加更怪屋谜案2,经常就需要根据书中内容校对文稿,导致我这视线不停地要在电脑屏幕和书本之间来回切换,加上接连几天的久坐通宵,这几天下来不仅肩颈酸痛,斜方肌也是僵得不行,胳膊都快提不起来了。索性用上了这款妙界R3至尊升级款肩颈按摩仪,每天按摩热敷三十分钟,酸痛不适感能缓解很多,值得推荐! ✔ 真正做到8D仿人手虎口揉捏,精准拿捏酸痛点 ✔最新升级艾灸碳技术,热敷范围更大,热敷效果更好 ✔ 四种按摩模式,最新升级大师模式,适合不同人群使用 ✔ 全身可按,按完肩颈还能按腰腿,一机多用 ✔ 背面是艾灸碳纤维,拆洗方便,皮质送礼更有面 ✔ 操作简单,按钮清晰,也可以和家人一起拥有 久坐肩颈酸痛的问题大家还是需要重视起来,像我斜方肌僵硬得不行,之前没去管它,结果酸痛感与日俱增。现在有了这个按摩仪,每天睡前按摩热敷会儿,不适感缓解了很多,对工作效率和睡眠都有帮助,算是给自己减负了,放一个妙界R3至尊升级款肩颈按摩仪在身边,随时随地都能给自己按摩。 有需要的听友们快使用以下三种方式(选一即可),获得专属购买福利吧: 1、点击进入专属购买链接 2、复制淘口令: 77¥UIkNfQ2ZRhf¥ / CA381 3、在淘宝搜索:“妙界” 找到【妙界旗舰店】向客服报暗号“in核”即可获得专属链接。 【时间轴】 00:45 广告time:手法更加灵活的私人推拿师 妙界R3至尊升级款肩颈按摩仪 03:58 烧岳脚下曾经活跃可疑神秘教团组织——重生集会,30年前记者小J卧底入教参与集会 【图】重生之馆 · 重生之馆的入口 12:35 成员深受感化神情宛如中邪,绯仓老董集会发言“贩卖赎罪券” 【图】重生之馆 · 集会进行的大厅 18:19 信众进入雕塑拜谒御堂阳华璃,断肢圣母,螺旋空间或都是精控手段 【图】重生之馆 · 雕像内部的螺旋结构 26:45 偶遇暴力事件被迅速平息,所谓修行竟然是大通铺睡觉 【图】重生之馆 · 离开场馆后沿外墙向东来到一个朝东大门处 【图】重生之馆 · 修行房间里竟然就是摆满了床铺 30:12 小J发现大厅全貌形状诡异,长桌交流或已揭露教团真面目 【图】重生之馆 · 大厅的完整布局 【图】重生之馆 · 大厅南边空地上摆着宴会长桌 31:40 小J画下的布局图存在违和感,重生之馆是按圣母断肢残区建立, 【图】重生之馆 · 小J此行画下的所有布局示意图 【图】重生之馆 · 把重生之馆的布局图拼接在一起 33:48 童年千惠怕黑不敢一个人睡,人渣爸爸制作土电话妙计,形象改观 【图】笠原家 · 房屋布局图 【图】笠原家 · 土电话刚好连接爸爸和千惠的床头 41:30 爸爸通话状态极其异常心不在焉,邻居江家大火夫妻双亡,爸爸事后离家离婚 48:17 千惠家大扫除找出当年土电话,感伤之余发现事发当天土电话疑点重重,爸爸或与隔壁杀人案有关 【图】笠原家 · 千惠看到的电话线 【图】笠原家 · 距离千惠床头最远能打通电话的地方就是爸爸的床头 【图】笠原家 · 如果爸爸在户外电话绳就会被隔断 【图】笠原家 · 电话线的真正排布 54:34 千惠爸爸买房独居,与一名受虐待的幼童有所交集,但之后离奇服药离世 61:02 幸存者小江在案发时正好在走廊之下,通过脚步声可知父亲当晚动线 【图】松江家 · 房屋布局图 【图】松江家 · 沙发位置刚好在二楼走廊下方 69:12 小江提出第二种纵火解释,30分钟空档是爸爸杀了妈妈,纵火毁尸 75:30 小江“恐吓”雨穴,携手千惠一起委托雨穴找出真相 78:15 小贵儿遭受严重虐待生活条件艰苦,两次到叔叔家经历可知,叔叔就是千惠爸爸,小贵儿是其私生子 85:04 小贵儿被母亲和其男友带走,受尽凌虐惨死家中,事件的大网已经开始浮现了 【Staff】 策划:阿克 录音:阿克 制作:阿克 封面设计:阿克

91分钟
99+
2天前

21《认知觉醒》:来!一起告别焦虑、拖延、分心、和学习低效!

爱阅界

学到了很多道理,看了很多书,有很多“哇哦”时刻,但是过后就忘,也没有实践起来;总是很焦虑,担心这担心那,再看看旁边那位开开心心钝感力十足的朋友,特别羡慕;总怀疑自己是多动症,容易分心,转个头又继续刷手机;又或者是拖延症重度患者,也不知道为什么别人能有这么多能量,行动力max。 如果你对以上的情景特别熟悉,非常头疼🤕 那么这期节目,就是为你量身定做!今天这一期,我们借这本书,解答了这些问题: 1. 懂得好多道理却做不到,怎么可以做到知行合一? 2. 怎么缓解焦虑? 3. 怎么保持专注? 4. 怎么有效学习? 5. 怎么加强执行力,做一个行动力大神? 希望你在这期里能“听有所感、听有所获”,能感受到觉醒带来的快感,或者开始行动,开启自我改变之路~ 我们下一期会总结和复盘做播客21期以来的经验!如果你对播客从0到1有任何困惑,有任何问题想听听我们的分享和想法,欢迎在评论区提问!我们都会放到下一期回答的~期待大家的问题哈哈! 【时间线🕔】 怎么能做到知行合一? 00:02:55 知行合一的关键就是元认知能力 00:04:42 元认知能力强的人,总能在行动前先踩一脚刹车 00:11:08 对模糊零容忍,是高手的共同特点 00:14:04 提高元认知有方法! 怎么摆脱焦虑? 00:18:47 焦虑的根源其实是急于求成、避难趋易 00:24:05 想缓解焦虑,试试这些方法吧 怎么提升专注力? 00:33:39 身心分离、逃避痛苦和无聊、大脑的机制……这些居然都是我们分心的罪魁祸首 00:35:23 提升专注力?没你想的那么难! 怎么有效学习? 00:42:15 只关注学习量、听懂=会了、缺乏输出,这些都是学习误区? 00:44:11 有效学习方法大公开! 00:48:52 用是最好的学:学剪辑?别看教程,先动手剪一期 怎么提高执行力、行动力? 00:57:22 明明想做却动不起来?深挖执行力不足的三个根源 00:59:31 三大执行力提升指南 01:06:24 本期推荐&下期预告 【能量加油站⛽️】 归结起来,焦虑的原因就两条:想同时做很多事,又想立即看到效果。 个人成长的目的已经不是“知道和理解”了,而是“判断与选择”。 只有当局势不明朗、没有人告诉你该怎么办,而错误的判断又会导致一些不良的后果时,你要是能因为有知识而敢于拿一个主意,这才算是真有知识。请注意,这不是在说,实用的知识才是知识,而是在说,只有当知识能够帮助你做实际决策的时候,它才是你的知识。 真正的学习成长不是“努力,努力再努力”,而是“反馈,反馈再反馈”,只有不断产出,获得反馈,我们的人生才会发生真正的变化。 觉醒就意味着看清,意味着主动改变默认设置,并做出新的选择。 阅读是为了改变。 事实上,阅读只是整个过程的开始,阅读之后的思考、思考之后的实践比阅读本身更加重要(这里主要指非虚构类书籍)。 从权重上看,阅读量<思考量<行动量<改变量。 阅读的深度比速度重要,阅读的质量比数量重要。 【本期推荐🤩】 * 《把时间当作朋友》李笑来 【更多内容】 * 尔蓝的小红书 * 电子报 【收听平台】 小宇宙、苹果播客、喜马拉雅、网易云、Spotify、虎扑、豆瓣

67分钟
99+
2天前

DeepSeekMath-V2发布,英伟达文档解析模型,Stability AI实现视频生成加速|奇绩前沿信号1201

奇绩创坛

奇绩前沿信号播客——全球 AI 前沿的情报站 奇绩前沿信号依托奇绩内部的研究体系,持续追踪并解读全球 AI 领域前沿的论文和产品动态。 我们将这些内容以 AI 与生成播客的形式分享,用通俗易懂的方式呈现复杂技术,帮助你快速理解技术趋势背后的核心逻辑、潜在影响和未来发展方向。 播客每日分享内容由奇绩行研实习生与 AI 共创,播客语音由 OpenMOSS (奇绩 2025 年春季创业营校友企业模型)支持。 针对每日前沿信号内容,我们还准备了进阶版的解读,提供更系统、深入的分析,涵盖实验成果与价值评估、方法与技术原理、应用场景与潜力判断、总结与前沿洞察等多个维度。 点击下方链接获取完整版内容,也欢迎扫描时间轴下方二维码加入奇绩前沿信号交流群,一起追踪 AI 最前沿的信息。 apply.miracleplus.com 【奇绩前沿信号介绍】 * 基于对全球 500+ 顶尖机构、3000+ 核心人才的实时追踪,只捕捉那些“刚刚发生、尚未扩散、但注定改变格局”的信号: * 认知模型突破、多模态跃迁、智能体进化…… * OpenAI、Anthropic、DeepSeek、Kimi、字节……巨头与新锐的关键动向 * Infra 演进、AI4S 落地、产业重构……高价值趋势的早期征兆 【时间轴】 01:17 DeepSeek-AI发布DeepSeekMath-V2:打造可自我验证、可自我进化的自然语言数学推理系统,首次在IMO与Putnam级别竞赛中达成金牌级表现 04:49 英伟达发布Nemotron-Parse 1.1:885M参数的轻量级文档解析模型,实现端到端OCR、结构化表格提取与语义理解 06:56 Stability AI等提出Block Cascading:无需训练即可将视频生成速度提升至2.79倍 08:27 华为诺亚方舟实验室提出ROOT优化器:通过自适应正交化与异常值抑制,实现大模型训练的双重鲁棒性突破 09:58 布朗大学与哈佛大学揭示:大语言模型的跨难度泛化能力远比我们想象的更有限 11:04 罗切斯特大学与MIT-IBM联合提出MIRA:通过多模态迭代推理实现复杂指令下的精准图像编辑 12:47 上海AI Lab等机构提出G²VLM:首个统一3D重建与空间推理的几何基础视觉语言模型 13:52 南京理工大学与百度提出ViLoMem:首个双流多模态语义记忆框架,通过分离视觉干扰与逻辑幻觉,实现多模态大模型的持续学习与跨域知识迁移 14:46 威廉玛丽学院等提出UniGame:让统一多模态模型自我对抗训练,显著提升理解与生成的一致性 15:30 复旦大学与创智学院提出ProphRL,通过可学习世界模型实现视觉-语言-动作策略的高效强化学习后训练 16:28 苏黎世联邦理工学院与洛桑联邦理工学院提出MTBBench:首个模拟肿瘤分子委员会的多模态序列临床决策基准,推动精准肿瘤学中AI代理的可靠性与推理能力评估 17:29 阶跃星辰GELab-Zero开源GUI Agent:4B模型引领移动端AI交互新范式 18:14 夸克发布新一代AI浏览器:深度融合千问助手,全面对标Chrome开启全球竞争 如果你对今天的前沿信号感兴趣或有自己的思考,也欢迎在评论区留言交流,期待与你碰撞更多观点。

19分钟
99+
2天前

335.车桩失衡困局:中国充电生态的深层矛盾与破局之路

邦女郎财经列车

各位听众朋友,这里是邦女财经列车,聪明的投资者都在这,本期我们探讨的话题是:车桩失衡困局:中国充电生态的深层矛盾与破局之路 2025年10月,国家能源局最新数据显示,中国充电基础设施总数突破1864.5万个,同比增长54%。但在这组光鲜数字背后,一场隐秘的充电危机正在蔓延:上半年新增新能源车693.7万辆,同期新增公共充电桩仅51.7万个,存量车与公桩比例攀升至9:1。当北京朝阳区的网约车司机老张在寒风中等待充电时,他或许不会想到,自己正身处一场涉及政策、技术、商业模式的系统性困局之中。这场困局的源头,始于公共充电桩扩张遭遇的"三重枷锁"——土地资源争夺战在深圳南山科技园上演,一座规划中的公共充电站因土地性质变更被迫搁置,类似场景正在全国蔓延:城市核心区土地成本高昂,郊区充电站又面临利用率低下困境,特来电数据显示其全国充电站中30%存在选址偏差导致的利用率不足问题;电网承载力瓶颈在上海虹桥枢纽充电站显现,因同时充电车辆过多引发区域性停电,国家电网测算显示单座快充站峰值功率需求相当于300户家庭用电总和,老旧城区电网改造成本高达每公里500万元,这种"先有车还是先有桩"的悖论让电网企业陷入两难;商业回报迷雾则笼罩着行业龙头,特来电连续三年亏损,2021年扣非净利润亏损1.35亿元,单根充电桩平均成本10万元,而利用率需达到15%才能盈亏平衡,现实是全国25座大城市 中22座城市公桩平均利用率不足10%,形成"建得越多亏得越狠"的死亡螺旋。 在这场困局中,充电焦虑的"隐形裂痕"愈发清晰。结构性失衡在地域间加剧,广东每3.8辆新能源车共享1个公桩,甘肃这一比例却是47:1,北京充电联盟数据显示五环外充电桩空置率达65%,核心区充电排队时长超过40分钟,政策红利难以普惠;技术标准碎片化让充电体验充满不确定性,某新能源车主在杭州遭遇的尴尬极具代表性——其车辆无法兼容当地主流充电协议,辗转3个充电站才找到适配设备,全国充电设施监测平台显示12%的充电故障源于协议不兼容,技术壁垒成为隐形门槛;运维服务断层则让充电桩沦为"数字孤岛",2025年9月成都某充电站因设备故障停运两周无人维修,当前充电桩运维存在"三不管"地带:运营商不管设备、物业不管场地、车主不管报修,这种服务真空导致全国坏桩率长期维持在8%以上。 面对困局,破局者们正在进行创新实验。威马汽车推出的"私桩共享"计划在杭州试点成功,3000名车主将私人充电桩接入平台,累计服务超10万次,这种"闲时出租"模式使单个充电桩利用率提升至35%,车主年均增收2800元;宁德时代在厦门建设的"零碳充电站"则展示了技术融合的潜力,集成光伏发电、储能系统、快速检测功能的充电站,日均发电量可满足40辆车充电需求,储能系统平抑电网负荷波动,检测设备可在充电时完成电池健康评估;星星充电开发的AI调度系统通过分析历史充电数据预测需求热点,在南京试点中使充电桩利用率提升22%,运维成本下降18%,其"潮汐充电"功能引导车主错峰充电,平抑电网负荷波动。 商业模式的重构正在打开新空间。国家电网提出的"智慧能源站"概念将充电桩与便利店、咖啡厅、无人零售结合,打造"充电+服务"生态圈,上海虹桥枢纽站数据显示非充电消费占比达37%,有效分摊运营成本;深圳试行的"峰谷差价+服务费浮动"模式,将充电价格与电网负荷动态挂钩,高峰时段服务费上浮50%,低谷时段下降30%,引导23%的充电需求转移至夜间,电网负荷峰值降低18%;平安银行推出的"充电桩建设专项贷款"采用"设备抵押+电费收益权质押"模式,使融资成本降低40%,该产品已支持全国1.2万个充电桩建设,不良率控制在0.8%以下。 站在2025年的节点回望,国家发改委《充电设施服务能力"三年倍增"行动方案》描绘的未来图景愈发清晰:到2027年建成2800万个充电设施,其中大功率快充桩占比超30%。更值得关注的是方案首次提出的"充电即服务"理念,要求新建充电桩必须具备V2G(车辆到电网)功能,使电动车成为移动储能单元。当北京的充电桩在深夜向电网反向供电,当上海的充电站成为社区能源枢纽,当广州的充电网络开始自动调度台风期间的应急电源,我们终将理解:真正的充电自由,不在于桩的数量,而在于整个系统的智慧进化。这场能源革命中,充电桩已不再是简单的补能设备,而是成为连接交通、能源、城市的智慧节点,在重构中孕育着中国新能源产业的新生机。 有想投资电池板块或者方向的小伙伴可以上zfb搜索德邦乐享生活混合这支产品,加个自选,祝您生活愉快,投资顺利! 注: 本音频仅限于本基金管理人与合作平台开展投教活动之目的使用,禁止第三方机构单独摘引、截取或以其他不恰当方式转播。 本音频为客户服务材料,既不构成基金宣传推介材料,也不构成任何法律文件。本音频所载信息和观点仅供阅读者参考。 德邦基金在本音频中的所有观点仅代表德邦基金在本音频成文时的观点,德邦基金有权对其进行调整;在不同时期,德邦基金可能会发出与本音频所载不一致的观点。 若本音频转载第三方报告或资料,转载内容仅代表该第三方观点,并不代表德邦基金的观点,德邦基金不对这些信息的真实性、准确性和完整性提供任何直接或间接的声明或保证。

6分钟
99+
2天前

彭博1130:英国预算案引争议,增税推迟至 2029 年

野格知识贩子

Shownotes 一、全球市场与科技故障 1. 芝加哥商品交易所(CME)因数据中心冷却问题中断交易数小时,影响外汇、债券等多市场期货期权交易,交易员 “盲飞”,依赖 ETF 判断市场,其股票表现疲软;感恩节后交易量清淡,但美东时间开盘前存风险担忧。 2. 股市或续涨但 12 月涨势放缓,欧洲 STOXX 600 持平、富时 100 微涨,欧元 / 美元走弱;欧洲家庭需求疲软,西班牙 CPI 强劲。 二、美国政治经济 1. 白宫附近发生枪击案后,特朗普呼吁永久暂停第三世界国家移民,提停止外国人福利等政策,“第三世界国家” 定义不明,或加剧美劳动力短缺、推高通胀。 2. 市场押注美联储 12 月降息,Kevin Hassett 成主席热门人选,“财政主导地位” 受关注,降息或利好黄金。 三、英国与地缘政治 1. 英国预算案引发数据泄露、财政整顿争议,增税推迟至 2029 年;英格兰银行利率预测偏保守。 2. 普京认可特朗普 28 点计划,匈总理拟与普京谈能源及俄乌冲突;英欧防务基金谈判失败。 四、零售与企业 1. 黑色星期五开启假日购物季,零售商面临关税等挑战,Bloomingdale's 复苏,Zara 转型高端时尚。 2. 科技巨头加大 AI 投入,Oracle 股价跌、SanDisk 涨,TSMC 前高管被查;EFG 国际拟扩并购,AI 赋能金融。 五、社会与其他 1. 香港发生致命火灾,致 128 人亡,5 人被捕,火警系统存问题。 2. 11 月油价连跌,OPEC + 或维持产量;市场担忧 AI 估值、债务等风险。

17分钟
99+
2天前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧