本次潜空间邀请了 MIT 计算机科学与人工智能实验室二年级博士生【杨松琳】,本次分享的主题是《下一代 LLM 架构展望》
💡关于【奇绩潜空间】:
奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。

文字稿及笔记:奇绩社区内容精选
🎤本期嘉宾:
杨松琳, MIT 计算机科学与人工智能实验室二年级博士生。专注于线性注意力机制、机器学习与大语言模型交叉领域,聚焦高效序列建模的硬件感知算法设计。围绕线性变换、循环神经网络优化开展研究,,并取得多项研究成果,多篇论文被 ICLR 2025、NeurIPS 2024 等顶会收录。此外,她还开源了 flash-linear-attention 项目,助力领域发展。
⏰时间轴:
- 01:17 序列建模的背景与Transformer的局限性
- 02:50 为何需要新架构?数据扩展的瓶颈与效率问题
- 04:07 Token Mixer与Channel Mixer的核心概念
- 06:10 位置编码(如RoPE)的局限性及改进方向
- 07:49 上下文相关的位置编码(如Sigmoid Attention)
- 10:32 线性注意力的分类与动态衰减机制
- 13:10 稀疏注意力(静态/动态)与混合注意力架构设计
- 15:54 在线学习(Test-Time Training)与强化学习的结合
- 17:04 稀疏注意力的硬件优化挑战与动态稀疏方案
- 22:49 混合注意力(层间/层内混合)与KV Cache的优化
- 25:54 Channel Mixing的潜力:MoE模型与动态权重调整
- 28:29 非Next Token Prediction的探索(Diffusion LM、多目标预测)
- 29:27 Test-Time Scaling的垂直方向与隐式推理(Latent Reasoning)
访谈环节
- 32:24 线性注意力应该放在那一层?结论是靠直觉还是有理论支持?
- 33:15 线性注意力发展的核心逻辑是怎样的?
- 36:20 从Hardware-Native角度谈架构设计的原则
- 40:01 设计算法架构的过程中如何权衡硬件迭代与算法设计?
- 44:31 Linear Attention火起来的的本质逻辑是什么?
- 47:40 Next Token Prediction之外的架构创新有哪些方向?
- 50:20 如何具体解释垂直方向的Test-Time Scaling?
- 52:31 Token与Channel混合的探索是怎样的?
- 54:40 对创业者的建议以及创业者如何应对模型架构的变化?
- 56:31 对年轻研究者的方向建议
Q&A环节
- 59:10 架构升级是否能带来如Transformer对CNN的效果飞跃?
- 59:52 如何看待对RWKV“无限上下文”能力?
- 1:00:51 有哪种方法可以支持长期记忆的实时更新?
- 1:06:28 StripedHyena 2 这个架构的特色有哪些?
- 1:07:38 混合的tension比 full attention 7 可能在长序列效果上要好很多,为什么?
- 1:10:55 开发问答型的应用用哪种架构会更好?
- 1:15:32 基于目前的架构还有哪些可以做的工作?
- 1:22:20 哪些问题限制了模型的上下文?线性注意力是如何扩展这个上下文窗口的?
- 1:29:33 Linear attention 比较容易出现过拟合的现象吗?如果有,应该怎样去应对?
- 1:36:50 contact 转 KV cache 这种work能做规则注入吗?
🔈奇绩潜空间下期预告:
下一期潜空间的时间在3月22日,我们邀请的分享嘉宾是【周衔】,先进生成式物理引擎 Genesis 贡献人一作。多篇文章被NeurIPS 2024、CoRL 2024、ICML 2024等顶会接收收录。现卡内基梅隆大学机器人研究所博士毕业生,曾于新加坡南洋理工大学取得学士学位。对机器人技术、计算机视觉和世界模型学习有广泛的兴趣。目前的研究重点是构建用于机器人研究及其他领域的统一神经策略和数据引擎。本次潜空间周衔将带来《生成式仿真:为具身智能解决数据难题的新范式》的主题分享,欢迎报名收听。
欢迎关注奇绩,报名活动及加入听友群请添加小助手:
空空如也
暂无小宇宙热门评论