张小珺Jùn｜商业访谈录 - 94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” - EarsOnMe

张小珺Jùn｜商业访谈录
94. 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”

时长：

156分钟

播放：

3.39万

发布：

5个月前

主播...

张小珺

简介...

今天这集节目延续我们的论文系列。我邀请MIT计算机科学与人工智能实验室的在读博士松琳，来给大家解读上个星期DeepSeek和Kimi发布的全新技术报告。
DeepSeek和Kimi又一次技术对垒。在同一天发布论文，两篇集中在改进注意力机制以处理长文本任务上。而春节前，MiniMax也发布了一篇注意力机制相关的论文。
松琳将带领大家阅读这3篇注意力机制有关的文章，解析不同模型公司的技术哲学和路线选择。
我们希望能让更多人领略AI科技平权，体验技术之美。
2025，我们和AI共同进步！
（如果如果，你觉得光听还不够刺激，觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往：含投屏的视频版本。预祝你学习顺利啦！）
我们的播客节目在腾讯新闻首发，大家可以前往关注哦，这样可以第一时间获取节目信息和更多新闻资讯：）
02:30 讲解开始前，先提问几个小问题
15:36 DeepSeek最新论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》讲解
论文中文名：《原生稀疏注意力：硬件对齐且原生可训练的稀疏注意力》
路线：稀疏注意力机制
本篇工作最大亮点：Native Sparse Attention 全线压制 Full Attention
01:19:14 Kimi最新论文《MoBA: Mixture of Block Attention for Long-Context LLMs》讲解
论文中文名：《MoBA：面向长文本上下文的块注意力混合架构》
路线：稀疏注意力机制
01:44:42 MiniMax春节前的论文《MiniMax-01: Scaling Foundation Models with Lightning Attention》讲解
论文中文名：《MiniMax-01：利用闪电注意力扩展基础模型》
路线：线性注意力机制
02:30:07 最后强化学习一下
【技术之美】系列：
逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净”
逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏”
【更多信息】
联络我们：微博@张小珺-Benita，小红书@张小珺
更多信息欢迎关注公众号：张小珺

评价...

空空如也

小宇宙热门评论...

张小珺

5个月前北京

如果如果，你觉得光听还不够刺激，觉得一定要坐在电脑前看着投屏、拿起纸笔学习更有沉浸感…如果你实在是真心想要找虐的话…请前往：https://b23.tv/Cvn3plQ

Baca

5个月前美国

感觉可以开一个子栏目reading group

Ethan2012

5个月前北京

小宇宙需要一个投ppt pdf的功能了。有些需要结合图文来理解

HD321933z

5个月前瑞士

我算是同行，但我觉得这位MIT嘉宾讲得不怎么样，懂的还是可以懂，但又没啥深度。可是讲的又不够浅显清晰，没懂的还是听不懂。挺尬的

康纳德

5个月前浙江

重生之我在小珺播客学习AI论文

张建松

5个月前江苏

专业性太强，门卫汉真是听不懂。

张小珺

5个月前北京

期待和你一起读论文，领略科技平权，感受技术之美ヾ(≧▽≦*)o

_Lyn_

5个月前浙江

能听懂细节可以抓细节，听不懂细节可以抓思想，哪怕基本思想理解不透也可以感知做每部分的基本动机和目的。这也是小珺的几个问题在试图给出来的解答，让大部分听众都有take home message，这基本是一个好的讲者面对不同专业度的听众能做到的比较好的报告的样子。

小饼饼

5个月前北京

感觉这个系列需要开一个油管/B站账号，不然根本不知道“这里”“那里”指代什么😧

Fazzie

5个月前上海

linear attention之母来了

Yiho

5个月前北京

论文学习班做大做强，继续开班👏

脆皮Crisp

5个月前上海

院长，我想从李沐老师那里 quit 了，我找到新导师了

TsumetaiChiTrader

5个月前北京

如果有人想要卷的快一点，可以看我整理的这个文档，《DeepSeek认知之旅》文档链接：https://kcnrgc2yrax7.feishu.cn/docx/AJo5dVRS7ortyEx1OW8cX9KBngd?openbrd=1&doc_app_id=501&blockId=doxcncVubbqQeHtN9klREuWVgUQ&blockType=whiteboard&blockToken=KrGqwrZKDh2PkpbNR6hcWn2Rn7b#doxcncVubbqQeHtN9klREuWVgUQ