张小珺Jùn|商业访谈录
努力做中国最优质的科技、商业访谈。

Album
主播:
张小珺
出版方:
张小珺
订阅数:
15.77万
集数:
122
最近更新:
3天前
播客简介...
努力做中国最优质的科技、商业访谈。 张小珺:财经作者,写作中国商业深度报道,范围包括AI、科技巨头、风险投资和知名人物,也是播客《张小珺Jùn | 商业访谈录》制作人。 如果我的访谈能陪你走一段孤独的未知的路,也许有一天可以离目的地更近一点,我就很温暖:)
张小珺Jùn|商业访谈录的创作者...
张小珺Jùn|商业访谈录的节目...

117. 开源一段论文探索之旅:模型范式、Infra和数据、语言、多模态的完整变迁史

张小珺Jùn|商业访谈录

今天的嘉宾是谢青池,他是美团光年之外的产品负责人。 一个月前,青池找到我,说他用了一年多的时间一篇一篇地啃完了200多篇AI论文,从开始全然不得要领,到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。 就这样,我们有了今天这集特别的节目。 他从200多篇论文中精选了36篇经典,4小时讲解,带你穿越AI变迁史。 他说,读论文是“给你打开一扇门”,让你能直接“与这个世界最聪明的头脑对话”。 2025年,期待我们和AI共同进步! 01:30 探索的缘起 07:25 怎么读论文?(用AI学AI) 10:20 辅助小工具和路书 论文讲解的主干: 19:35 Part 1:模型的范式变迁 故事要从1999年的第一颗GPU开始讲起 Brook: 用GPU进行计算 (2004.08) AlexNet: 深度学习的开端(2012.10) 对序列建模:seq2seq和Attention的引入(2014.09) 蒸馏:模型能被学习吗?(2015.03) ResNet: 比深更深(2015.12) Transformer来了!拉开一个时代的序幕(2017.06) AlphaGo Zero: 强化学习的突破(2017.10) 现代MoE的开端(2017.01) CoT: Prompt Engineering的奠基之作(2022.01) LoRA: 那个我们每天都在用的东西(2021.06) ReAct: Agent从理论到落地(2022.10) The Bitter Lesson: 过去70年的教训(2018.08) 01:52:58 Part 2:Infra与数据的变迁 ZeRO: 大规模的GPU并行计算(2019.10) Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03) LAION-5B: 开源社区的英雄主义(2022.10) The RefinedWeb: 互联网的数据也很够用(2023.06) MegaScale: 万卡GPU集群的训练(2024.02) 02:21:29 Part 3:语言模型的发展 Word2Vec: 用机器学习将单词向量化(2013.01) Google Translate: 神经网络的大规模线上部署(2016.09) GPT-1,它来了(2018.06) BERT: 曾经的王(2018.10) GPT-2: 是时候告别微调了(2019.02) GPT-3: ChatGPT来临前夜(2020.05) InstructGPT: 给LLM以文明(2022.03) Tulu 3: 后训练的开源(2024.11) 03:08:08 Part 4:多模态模型的发展 DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06) 双流网络: Karén和学术重镇牛津登场(2014.06) 图像生成的序章: GAN来了(2014.06) Diffusion: 在GAN的阴影下,悄然成长(2015.03) DDPM: Diffusion重回图像舞台的中央(2020.06) ViT: 当图像遇到Transformer(2020.10) CLIP: 文生图的奠基石(2021.03) Stable Diffusion,它来了(2021.12) DiT: 人们期待一个融合的未来(2022.12) 03:56:38 最后的聊天 架构抱住了硬件的大腿 今天技术的边界到达了哪? 给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议 【技术之美】系列: 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA” 逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的力量” 【更多信息】 本集的投屏视频版已经同步发布于Bilibili(张小珺商业访谈录):https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f2790 50页完整PPT开源地址(所有论文链接附在PPT上):https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink

262分钟
21k+
2天前

119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

张小珺Jùn|商业访谈录

今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是MIT在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作,是Kimi Linear论文的作者之一。 算法创新为什么在2025年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期Scaling Law的魔法继续。而由于中国的算力相对美国有限,这反而让中国的AI算法创新走在了世界前沿。 这集节目你将听到,近几年架构最大突破是DeepSeek的MoE(混合专家模型),它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention(注意力机制)。 中国公司在Attention展开了不同技术bet(押注): * 截至目前已发布模型,DeepSeek正在探索Sparse Attention(稀疏注意力机制); * Kimi正在探索Linear Attention(线性注意力机制); * Minimax在年初的M1版本中探索Linear Attention,而在刚发布的M2版本中又回退到 Full Attention(全局注意力机制)。 节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在Attention上的不同抉择; 与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。 本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库:flash-linear-attention(简称FLA) 07:04 怎么通俗理解Linear Attention的Linear? 11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构) (FLA库的另一个作者Zhang, Yu邀请) 12:20 为什么Kimi在年初开始需要重新设计注意力机制?设计的背景和目标 在Linear Attention下,推理阶段的计算与显存成本都显著降低;而使用Full Attention时,长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解:KDA模块(Kimi Delta Attention,增量注意力机制) 18:56 Kimi内部有一个Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去scale,就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi走线性注意力路线,DeepSeek走稀疏注意力路线,都想解决长文本decoding(长上下文生成)的效率问题 23:01 Minimax从M1到M2的架构变化,从Linear Attention退回到Full Attention,为什么? 27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下OpenAI有paper的方案 28:05 Linear Attention从2020年发明出来开始后的前进线索 每一次大家关心Linear Attention都是因为大家撞到了Context Wall 最近长文本的decoding卷土重来,让人们不由自主审视这一套技术 38:16 纯Linear Attention是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证 40:30 Kimi Linear每3层KDA插入1层全注意力层,三比一的比例快变成共识了 Minimax之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency) Minimax曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷 对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的RNN(循环神经网络),这个GAP有可能缩小 46:28 chunkwise algorithm for parallelization(分块并行算法) 47:55 如何设计Attention?两条主流和一些非主流路线 49:36 结合Linear Attention和Sparse Attention的未来理想方案 Linear Attention和Sparse Attention没什么竞争关系,Linear Attention的竞争对手可能是Sliding-Window Attention(滑窗注意力) 工业界Linear Attention和Sparse Attention结合的探索似乎还没开始 我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention) 只要Sparse Attention选得准,完全可以取代Full Attention,但现在的问题是它选不准 55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力) 57:05 Transformer → MoE → Linear/Sparse Attention的算法演变,背后动因是给定你相同的FLOPs(浮点运算量),利用这些FLOPs,取得更低的损失函数 MoE(混合专家)是更高效的FNN(前馈神经网络)的替代品 58:26 近几年架构方面突破最大的是MoE,下一个突破可能是Attention;Transformer就两个模块,一个是FFN,一个是Attention;现在FFN已经雕成MoE,现在Attention大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要 01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止context window继续scale up的主要瓶颈 2、Continue Learning,让AI自己学习 01:04:30 如何把Linear Attention的Transformer继续scale up? 01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡( 不过美国公司更多投入优化器一点,国内在逐步重视 01:10:56 其他训练细节:NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了Qwen3-Next,没有参与Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的” 经验分享:PhD还挺顺利的,得益于我入学之前的半年考古 01:23:12 说到考古,我们在最后聊聊从Transformer开始的算法变种历史 01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议 嘉宾往期节目: 《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》 谈到的论文: 《Kimi Linear: An Expressive, Efficient Attention Architecture》 《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

103分钟
2k+
3天前

118. 对李想的第二次3小时访谈:CEO大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧

张小珺Jùn|商业访谈录

2025年4月,我与理想创始人兼CEO李想录制AI Talk第二季。那次对谈持续了很长时间,播出版仅1小时,今天你看到的是完整版。 这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这些内容时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。 你可以结合2024年底我们那场3小时谈话一起观看,感受两次对话之间,思考的延展与呼应。 这次,我把李想当作一个“CEO大模型”来提问。 假设他是一种MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入到后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 “AI与人的关系”,是本次对话的母题。 (录制于2025年4月) 02:35 第一章:假若你是一个CEO大模型 人类做熵减,AI做熵增 工具的三个分级:“信息工具”、“辅助工具”、“生产工具” “生产工具”重要的衡量是:你愿意为它付钱 梁文锋极简运用了人类最佳实践 按照最佳实践是反人性的,随心所欲才满足人性 我只能做最好的自己,我一直在自己的长板延长线上 理想为什么还做基座大模型? 当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的 36:18 第二章:调用MoE之技术专家 李想手把手教你训VLA 达到VLA不是突变的过程,是进化的过程,经历了三个阶段 我给你讲一下VLA是怎么训的,以及VLA自己怎么去工作的 我不会做超长CoT,我的CoT链条一般两步到三步 至少5年内不会有通用Agent,但会有一个Agent OS 要顺着人性去说,逆着人性去做 如果大家不想做前面包子的积累,只想吃第10个包子,很像练《葵花宝典》 黑盒、世界模型和定价逻辑 每1万公里的验证成本,我们做到从最开始18万降到4000块钱 01:25:36 第三章:调用MoE之战略专家 2025年雁栖湖战略会 如果看战略,中间的圈是规模,圈外边有三个变量:用户需求、技术产品、组织能力 具备这四个特点的,就是AGI时代的终端:360度对物理世界感知的能力、认知决策的能力、Action的能力、反思反馈能力 到了AGI时代的终端,对于能力的要求变得不一样了 如果看到2030年,我们希望能够成为全球领先的人工智能终端企业 这是我们未来的3-6年要去解的题 李想的理想会不会太过于理想? 构建3-7人能量体 高维组织兼容低维组织 02:09:26 第四章:智慧是我们和万物的关系 我的记忆程序 创业不容易,但是没必要苦哈哈的 大女儿 我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升 人是用来发挥的,人不是用来改变的 不要构建那么多亲密关系,亲密关系太多了就证明这个人不会经营关系 把智慧当成一个重要的人类特质去发展 对李想的第一次3小时访谈: 《对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 本集节目同步上线文字版和视频版: 文章:公众号(语言即世界language is world) 视频:Bilibili(张小珺商业访谈录)

166分钟
21k+
1周前

103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈

张小珺Jùn|商业访谈录

今天的嘉宾又是一位AI应用创业者,Lovart创始人陈冕。 他的产品成为2025年既Manus之后,另一个在全球斩获一定知名度的Agent。不同的是,Manus是通用Agent,Lovart是垂直Agent,面向设计师使用。 与其说他是做产品的CEO,他的精神状态更贴近一名“战斗型CEO”。 这次访谈发生Lovart火了之后,你能感受到陈冕在过去2年遭遇了补贴战争、产品下架、账上只剩4000块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻,充斥着的要溢出的快乐。 这是2025年对一位Agent创业者精神状态的截取。浪潮的大幕才刚刚拉开。 2025,期待我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 03:00 开始的快问快答 漂泊 05:00 一个90后的不断跳槽的10年移动互联网经历 (腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映) 07:02 经历了两次战斗,战斗正酣的时候是顶点,后面一地鸡毛 13:58 从0到1做瓜瓜龙,刚升字节4-1,就撞上双减了 15:18 换一种选择,会更好吗? AI来了,觉得自己被解救了 25:25 AI至少是电脑的发明,比肩信息革命的变革(智能化vs信息化) 28:58 被救赎的一刻:“希望是一切痛苦的解药,是一切痛苦的意义” 29:51 避开大模型主航道和语言主轴,选择多模态、创作 2023年:前一秒赢了中国第一,下一秒被下架了、裁员了、没钱了 36:00 见的第一个投资人是张予彤 37:43 2023年6月-9月,我全情的战斗!——3个月烧了200万美金 39:03 前一秒刚赢了中国第一,下一秒被下架了、裁员了、没钱了 40:45 怎么看投流?怎么看Kimi投流? 42:35 被下架什么心情?奔溃啊 44:09 公司账上只剩4000块 45:17 现在获客成本是多少?怎么有效获取用户? 49:38 时机稍纵即逝,好的节奏时一定要扩大战果 2024年:哐哐哐狂投 50:05 2024年哐哐狂投,一个月一轮融资,close了3轮 52:21 我们非常清楚第一代产品liblib的局限性,开始考虑第二代产品 55:58 第二代产品Lovart是怎么预研的? 2025年:Lovart火了 59:48 如果这个设计师叫Lovart,他/她又Love art,还蛮酷的 01:01:47 争抢“全球第一个XX Agent”究竟带来什么? 01:03:00 为啥搞邀请码成了标配? 01:03:56 Lovart火了之后 01:07:30 AI应用创业的know-how 这是我创业最!!爽的!!东西!! 01:19:57 我是双子座,时而发狂,时而很软 01:24:04 与焦虑共生,就是干! 01:25:26 这是我创业最!!爽的!!东西!! 01:28:00 但在这一刻就是好爽啊!!!我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈 01:28:32 给我多少钱、给我多少职级,都买不到 01:32:35 在陌生领域的创新,就像用火柴在潮湿的木头上反复地滑动,点燃又熄灭;直到有一天,你抓住了某一个缝隙,把木柴点燃,火势弥漫整个山洞 01:33:58 2023年底去高瓴办公室,阳光中,我恍惚了 大闹一场,悄然离去 01:35:00 童年:漂泊、武侠小说和电脑游戏 01:26:01 我不知道故乡是哪,只能一直往前走 01:38:46 给其他AI应用创业者的建议 01:42:29 最后的快问快答 【2025上半年Agent创业三部曲】 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍 Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

105分钟
33k+
1周前
张小珺Jùn|商业访谈录的评价...

空空如也

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧