121. 对DeepMind谭捷的访谈:机器人、跨本体、世界模型、Gemini Robotics 1.5和Google

张小珺Jùn|商业访谈录

今天的嘉宾是Google DeepMind机器人团队的高级研究科学家兼技术负责人谭捷,他的研究方向是将基础模型和深度强化学习方法应用于机器人领域。 中美在机器人领域一直存在两种叙事:市场普遍认为,中国在硬件上发展更快,美国在机器人大脑设计上更领先。 本期节目中,谭捷将带我们一窥硅谷视角,尤其是Google DeepMind视角下的机器人前沿叙事。 前不久,他们刚发布了新工作 “Gemini Robotics 1.5 brings AI agents into the physical world”(Gemini Robotics 1.5将AI Agents带入物理世界),我们也聊了聊他们的最新发现。 由于嘉宾工作环境的原因,会出现一定程度的中英夹杂,还大家多多包容和支持。 02:00 机器人是在真实世界里做图形学,图形学是在simulation里做机器人 嘉宾小传:小时候喜欢打游戏,读博士读的计算机图形学 从图形学转型机器人的变轨 我在Google的第一篇论文《Sim-to-Real: Learning Agile Locomotion For Quadruped Robots》(从仿真到现实:学习四足机器人敏捷运动),开创了强化学习和seem to real在足式机器人上的应用 Paradigm Shift,过去十年第一个是强化学习,第二个是大语言模型 大语言模型对机器人的影响(大语言模型类似大脑,强化学习类似小脑) 13:06 机器人基座大模型到底是不是一个非常独立的学科?So far, not yet 今天的机器人发展到什么阶段了? 从demo到真正落地,隔十年并不是一个非常夸张的事 从我的角度来说,我不得不承认,最近几年的机器人智能发展主要还是依赖于多模态大模型 但多模态模型缺什么呢?缺少robot action的输出 当你真正有一个generalist model(通用模型)的时候,specialized model(专有模型)就完全不能与之竞争 23:44 Robotics最大问题是数据,它在一个非常复杂的unstructured environment里,可以发生任何事情 最大的问题还是数据问题 但是robotics是在一个非常复杂的unstructured environment(非结构化环境)里,可以发生任何事情 它需要极大量的、非常diverse(多元)的数据,但这些数据现在是不存在的 现在有很多startup叫data factory(数据工厂) 所谓“数据金字塔”包括哪些? ​27:52 Gemini Robotics 1.5:我们有一个方法叫motion transfer,这是独门秘诀 Gemini Robotics 1.5最重要的发现是什么? 第一个是我们把“thinking”加入了VLA模型 第二个非常重要的突破是cross-embodiment transfer(跨具身迁移) Gemini Robotics 1.5的工作中,我们做了一个快慢模型的划分 它应该是个过渡的方式,因为现在受制于算力的限制、模型大小的限制 当你要一个unify model(统一模型)的时候,它必须非常大 Motion Transfer?It’s very secret 47:32 生成极大量仿真数据,是弥补它缺点的一个重要手段 我们比较重视的一点还是数据、数据、数据 遥操作是非常难以获取的数据 我们会花更多的精力,比如利用simulation数据,利用human video(人类视频),利用YouTube上的一些数据,甚至利用模型生成的数据,比如VEO生成的一些数据 真实数据没有sim-to-real gap(仿真到现实差距),但是泛化性是由数据的coverage(覆盖)导致的,并不是因为它本身是真实数据还是虚拟数据 在不远的将来,传统物理模拟仿真会慢慢地被生成式模型的仿真所取代 我信仰的是scalable data 01:03:48 世界模型就是Vision-Language-Vision,vision和language in,生成下一帧的图像 世界模型的定义是:如果给上前一帧,再给上机器人的动作,你可以预测下一帧 从另外一个角度,VEO它是一个视频生成模型,但是Genie它更像一个世界模型 当你在每一帧的时候,可以有一个输入来改变你的下一帧,那个感觉就是世界模型;但是如果它是一个已经生成好的、几秒钟的静态视频,那就不是 世界模型其实就是Vision-Language-Vision,vision和language in,它可以生成下一帧的图像 01:08:29 如果你有灵巧手,触觉就非常重要,之所以我前面觉得触觉不重要,是受限于当时的硬件 如果你有灵巧手,触觉就非常重要 之所以我前面觉得触觉不重要,是因为它其实受限于当时的硬件 现在还在夹爪时代 在所有夹爪能完成的任务里,我还是觉得视觉可能可以解决95%的问题 在未来,人形机器人不会成为唯一的形态,但一定是个主流的形态 如果你的目标是solve AGI in the physical world(在物理世界实现AGI),那么我会非常聚焦于最终的形态是什么样子,其他的东西可能都是distraction(干扰) 01:17:35 一个有使命感的人,他不会容忍说“I’m on a wrong ship” 这几年Google AI或者robotics的研究文化上有没有发生过变化? 不管是从promotion、performance review、incentive,还是各种各样的structure上,Google想创造一个环境,使得更多的人可以一起解决更大的事情 像Gemini Robotics,它更多是自上而下 我发觉好像国内不一定比我卷,我一周可能工作70到80个小时 真的,这个时代真的是等不起,不然别人都做出来了 AI有很多是数学,华人数学比较好 《106. 和王鹤聊,具身智能的学术边缘史和资本轰炸后的人为乱象》 《109. 机器人遭遇数据荒?与谢晨聊:仿真与合成数据、Meta天价收购和Alexandr Wang》 【更多信息】 本集的文字版本已发布,请搜索我们工作室的官方公众号: 语言即世界language is world

126分钟
39k+
3个月前

120. 小鹏新上任的刘先明首次访谈:Language是毒药、拆掉L、简单即美、换帅、小鹏的AI转型

张小珺Jùn|商业访谈录

今天的嘉宾是小鹏汽车自动驾驶中心负责人刘先明。 就在2025年10月9日,小鹏汽车突然宣布,原自动驾驶中心负责人李力耘将卸任,由世界基座模型负责人刘先明接任。 这意味着,刘先明成为小鹏在自动驾驶上,既谷俊丽、吴新宙(现英伟达自动驾驶中国团队负责人)、李力耘之后的第四任负责人。外界对他有诸多的好奇。 这是刘先明上任后首次接受专访。我们访谈的时间是2025年10月30日。这集节目,我们聊了聊他上任后拆掉大模型Language等关键技术决策,以及一家车企的AI战略转型。 02:16 人物小记 曾在Meta、Cruise,从事机器学习与计算机视觉研究 恰好Cruise当时是第二名,加入第二名再逆袭的故事永远是令人兴奋的 加入小鹏汽车始末:2024年1月在美国办公室与何小鹏见面1小时 所亲历过的自动驾驶的技术stage 19:00 大模型拆Language 我们的做法简单直接,把VLA的Language拆掉就完了 模型是机器,燃料是数据,一旦掺入Language会让效率变得极低 我们干脆把Language全都拆掉好了:输入V-L联合语料,直接输出Action “拆L”的过程、“简单就是美” 关键的数据问题 33:53 小鹏汽车向物理AI战略的转型 为什么一家汽车公司的自动驾驶战略需要向AI战略转型? 转型的开端可能是去年小鹏汽车10周年 自动驾驶企业关心的是KPI、接管率,AI企业关注底层的技术指标,甚至risky的长期指标 刘先明的短期和长期KPI AI对于小鹏汽车意味着什么?“是乘法因子” 除了今年拆Language,之前还拆了激光雷达、规控规则、端到端 人工智能发展为什么一直在经历着拆拆拆的过程? 世界模型 明年对L4的规划 54:30 换帅的背后 过去1年做过“头铁”的事情 看起来我性格很好,我也拍过桌子、发过火 “拆L”过程中遇到很大阻力,因为这很反paper里的常识 DeepSeek-OCR的反共识 现在关注的AI前沿方向 回应地平线创始人余凯的观点(“自动驾驶应该交给供应商”) 为什么国内自动驾驶还没有代际差? AI是车企下一阶段的重要赛点,做不好会被淘汰 何小鹏对于AI的关注时间、方式和最近的3次话题 制造企业和AI企业的基因问题 接下来,对于我的挑战 小鹏智驾一号位,每个人的历史使命 《70. 和何小鹏聊,FSD、“在血海游泳”、乱世中的英雄与狗熊》

108分钟
26k+
4个月前

119. Kimi Linear、Minimax M2?和杨松琳考古算法变种史,并预演未来架构改进方案

张小珺Jùn|商业访谈录

今天这集节目,我们将讨论一个在当下非常关键的话题:人工智能的算法与架构创新。 嘉宾是我们的往期嘉宾返场,她是MIT在读博士杨松琳,研究方向是线性注意力机制。 我们将从最新发布的几个模型Kimi Linear、Minimax M2、Qwen3-Next切入。松琳参与讨论Kimi Linear和Qwen3-Next的部分工作,是Kimi Linear论文的作者之一。 算法创新为什么在2025年变得尤为重要? 它的背后原因是,数据、算力和算法是驱动人工智能的三驾火车,在数据撞墙的无奈前提下,各个模型公司不得不重新开始“雕模型架构”,以期Scaling Law的魔法继续。而由于中国的算力相对美国有限,这反而让中国的AI算法创新走在了世界前沿。 这集节目你将听到,近几年架构最大突破是DeepSeek的MoE(混合专家模型),它让MoE成为了全球共识;而下一个突破的重要方向可能就是Attention(注意力机制)。 中国公司在Attention展开了不同技术bet(押注): * 截至目前已发布模型,DeepSeek正在探索Sparse Attention(稀疏注意力机制); * Kimi正在探索Linear Attention(线性注意力机制); * Minimax在年初的M1版本中探索Linear Attention,而在刚发布的M2版本中又回退到 Full Attention(全局注意力机制)。 节目中,松琳将讲解她参与的这篇《Kimi Linear: An Expressive, Efficient Attention Architecture》的工作,并分析以上这些公司在Attention上的不同抉择; 与此同时,她也将带领大家考古人工智能算法变种史,并预演未来算法与架构的改进方案。 本集比较硬核,会有一些专业难度,大家可以根据自己的实际需要收听嗷:)因为嘉宾的工作环境会出现中英夹杂,希望大家多多理解和支持。 04:00 个人、研究主线与线性注意力机制的探索之路 06:27 松琳做过一个开源库:flash-linear-attention(简称FLA) 07:04 怎么通俗理解Linear Attention的Linear? 11:19 聊聊最近参与的新工作,前几天刚发布的《Kimi Linear: An Expressive, Efficient Attention Architecture》(Kimi Linear:一种具有强表达能力与高效率的注意力架构) (FLA库的另一个作者Zhang, Yu邀请) 12:20 为什么Kimi在年初开始需要重新设计注意力机制?设计的背景和目标 在Linear Attention下,推理阶段的计算与显存成本都显著降低;而使用Full Attention时,长文本解码的代价会非常高昂 14:39 《Kimi Linear》论文重点讲解:KDA模块(Kimi Delta Attention,增量注意力机制) 18:56 Kimi内部有一个Scaling Ladder(规模阶梯),在一个规模下面表现好就在下一个规模下面去scale,就像通关 20:20 Kimi Linear Attention vs DeepSeek Sparse Attention:Kimi走线性注意力路线,DeepSeek走稀疏注意力路线,都想解决长文本decoding(长上下文生成)的效率问题 23:01 Minimax从M1到M2的架构变化,从Linear Attention退回到Full Attention,为什么? 27:00 硅谷的注意力机制方案不方便说,但可以浅聊一下OpenAI有paper的方案 28:05 Linear Attention从2020年发明出来开始后的前进线索 每一次大家关心Linear Attention都是因为大家撞到了Context Wall 最近长文本的decoding卷土重来,让人们不由自主审视这一套技术 38:16 纯Linear Attention是无效的,混合注意力机制还是有很多全局注意力层,这样下限有保证 40:30 Kimi Linear每3层KDA插入1层全注意力层,三比一的比例快变成共识了 Minimax之前用的是七比一,但现在大家逐渐回到三比一——这成为不共识的混合注意力机制中的共识了 42:32 权衡(Trade-off)表达能力(expressivity)与计算效率(efficiency) Minimax曾经也提到,混合线性注意力/混合滑窗注意力在“多跳推理”上会有缺陷 对于“多跳推理”,如果我们开发一些硬件高效但表达能力更好的RNN(循环神经网络),这个GAP有可能缩小 46:28 chunkwise algorithm for parallelization(分块并行算法) 47:55 如何设计Attention?两条主流和一些非主流路线 49:36 结合Linear Attention和Sparse Attention的未来理想方案 Linear Attention和Sparse Attention没什么竞争关系,Linear Attention的竞争对手可能是Sliding-Window Attention(滑窗注意力) 工业界Linear Attention和Sparse Attention结合的探索似乎还没开始 我想象中的理想方案是:把混合注意力的全局注意力(Full Attention)换成稀疏注意力(Sparse Attention) 只要Sparse Attention选得准,完全可以取代Full Attention,但现在的问题是它选不准 55:36 公平的比较:Linear Attention vs Sliding-Window Attention(滑窗注意力) 57:05 Transformer → MoE → Linear/Sparse Attention的算法演变,背后动因是给定你相同的FLOPs(浮点运算量),利用这些FLOPs,取得更低的损失函数 MoE(混合专家)是更高效的FNN(前馈神经网络)的替代品 58:26 近几年架构方面突破最大的是MoE,下一个突破可能是Attention;Transformer就两个模块,一个是FFN,一个是Attention;现在FFN已经雕成MoE,现在Attention大家也可以雕一下 01:01:28 数据、算法、算力是驱动人工智能的三驾马车,当数据遇到数据强,算法创新变得更重要 01:02:48 架构的未来:1、能不能干掉全局注意力?它是阻止context window继续scale up的主要瓶颈 2、Continue Learning,让AI自己学习 01:04:30 如何把Linear Attention的Transformer继续scale up? 01:07:43 中国AI的算法创新相比海外肯定是更强的——因为没有那么多卡( 不过美国公司更多投入优化器一点,国内在逐步重视 01:10:56 其他训练细节:NoPE vs. RoPE 01:12:09 DeepSeek-OCR 01:12:55 松琳也参与了Qwen3-Next,没有参与Minimax M2 01:13:39 “雕”架构的人 01:15:16 自己的心路:“当你很清楚你要做什么的时候,你是不会遇到什么挫折的” 经验分享:PhD还挺顺利的,得益于我入学之前的半年考古 01:23:12 说到考古,我们在最后聊聊从Transformer开始的算法变种历史 01:29:50 Delta Rule算法、硬件亲和、DeepSeek非常追求硬件和算法的匹配 01:42:23 给更年轻的年轻人的建议 嘉宾往期节目: 《逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学”》 谈到的论文: 《Kimi Linear: An Expressive, Efficient Attention Architecture》 《MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention》 《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》

103分钟
20k+
4个月前

118. 对李想的第二次3小时访谈:CEO大模型、MoE、梁文锋、VLA、能量、记忆、对抗人性、亲密关系、人类的智慧

张小珺Jùn|商业访谈录

2025年4月,我与理想创始人兼CEO李想录制AI Talk第二季。那次对谈持续了很长时间,播出版仅1小时,今天你看到的是完整版。 这一集节目的发布比预期晚了些。过去几个月实在太忙了,我一度犹豫要不要继续放出。但当我重新整理这些内容时,仍然被它打动——这是一份关于人工智能技术变革的“节点式思考存档”。 你可以结合2024年底我们那场3小时谈话一起观看,感受两次对话之间,思考的延展与呼应。 这次,我把李想当作一个“CEO大模型”来提问。 假设他是一种MoE(Mixture of Experts,专家混合)架构的模型,我在对话的前三个回合调用了他的三位“专家”:技术专家、战略专家、组织专家。而当谈话深入到后半程,我们开始讨论人、能量、亲密关系、记忆程序与人类的智慧。 “AI与人的关系”,是本次对话的母题。 (录制于2025年4月) 02:35 第一章:假若你是一个CEO大模型 人类做熵减,AI做熵增 工具的三个分级:“信息工具”、“辅助工具”、“生产工具” “生产工具”重要的衡量是:你愿意为它付钱 梁文锋极简运用了人类最佳实践 按照最佳实践是反人性的,随心所欲才满足人性 我只能做最好的自己,我一直在自己的长板延长线上 理想为什么还做基座大模型? 当时我们比较担心陈伟团队(基座模型自研团队)怎么想?这个压力挺大的 36:18 第二章:调用MoE之技术专家 李想手把手教你训VLA 达到VLA不是突变的过程,是进化的过程,经历了三个阶段 我给你讲一下VLA是怎么训的,以及VLA自己怎么去工作的 我不会做超长CoT,我的CoT链条一般两步到三步 至少5年内不会有通用Agent,但会有一个Agent OS 要顺着人性去说,逆着人性去做 如果大家不想做前面包子的积累,只想吃第10个包子,很像练《葵花宝典》 黑盒、世界模型和定价逻辑 每1万公里的验证成本,我们做到从最开始18万降到4000块钱 01:25:36 第三章:调用MoE之战略专家 2025年雁栖湖战略会 如果看战略,中间的圈是规模,圈外边有三个变量:用户需求、技术产品、组织能力 具备这四个特点的,就是AGI时代的终端:360度对物理世界感知的能力、认知决策的能力、Action的能力、反思反馈能力 到了AGI时代的终端,对于能力的要求变得不一样了 如果看到2030年,我们希望能够成为全球领先的人工智能终端企业 这是我们未来的3-6年要去解的题 李想的理想会不会太过于理想? 构建3-7人能量体 高维组织兼容低维组织 02:09:26 第四章:智慧是我们和万物的关系 我的记忆程序 创业不容易,但是没必要苦哈哈的 大女儿 我们家里实现了一个“三人支撑”,这让家里的能量大幅地提升 人是用来发挥的,人不是用来改变的 不要构建那么多亲密关系,亲密关系太多了就证明这个人不会经营关系 把智慧当成一个重要的人类特质去发展 对李想的第一次3小时访谈: 《对李想的3小时访谈(播客版):宅男、AI、家庭、游戏和天梯》 本集节目同步上线文字版和视频版: 文章:公众号(语言即世界language is world) 视频:Bilibili(张小珺商业访谈录)

166分钟
53k+
4个月前

103. Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈

张小珺Jùn|商业访谈录

今天的嘉宾又是一位AI应用创业者,Lovart创始人陈冕。 他的产品成为2025年既Manus之后,另一个在全球斩获一定知名度的Agent。不同的是,Manus是通用Agent,Lovart是垂直Agent,面向设计师使用。 与其说他是做产品的CEO,他的精神状态更贴近一名“战斗型CEO”。 这次访谈发生Lovart火了之后,你能感受到陈冕在过去2年遭遇了补贴战争、产品下架、账上只剩4000块现金的绝境、怎么都融不到资等一系列愤懑之后——此时此刻,充斥着的要溢出的快乐。 这是2025年对一位Agent创业者精神状态的截取。浪潮的大幕才刚刚拉开。 2025,期待我们和AI共同进步! 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 03:00 开始的快问快答 漂泊 05:00 一个90后的不断跳槽的10年移动互联网经历 (腾讯、360、百度、滴滴、摩拜、美团、每日优鲜、字节教育和剪映) 07:02 经历了两次战斗,战斗正酣的时候是顶点,后面一地鸡毛 13:58 从0到1做瓜瓜龙,刚升字节4-1,就撞上双减了 15:18 换一种选择,会更好吗? AI来了,觉得自己被解救了 25:25 AI至少是电脑的发明,比肩信息革命的变革(智能化vs信息化) 28:58 被救赎的一刻:“希望是一切痛苦的解药,是一切痛苦的意义” 29:51 避开大模型主航道和语言主轴,选择多模态、创作 2023年:前一秒赢了中国第一,下一秒被下架了、裁员了、没钱了 36:00 见的第一个投资人是张予彤 37:43 2023年6月-9月,我全情的战斗!——3个月烧了200万美金 39:03 前一秒刚赢了中国第一,下一秒被下架了、裁员了、没钱了 40:45 怎么看投流?怎么看Kimi投流? 42:35 被下架什么心情?奔溃啊 44:09 公司账上只剩4000块 45:17 现在获客成本是多少?怎么有效获取用户? 49:38 时机稍纵即逝,好的节奏时一定要扩大战果 2024年:哐哐哐狂投 50:05 2024年哐哐狂投,一个月一轮融资,close了3轮 52:21 我们非常清楚第一代产品liblib的局限性,开始考虑第二代产品 55:58 第二代产品Lovart是怎么预研的? 2025年:Lovart火了 59:48 如果这个设计师叫Lovart,他/她又Love art,还蛮酷的 01:01:47 争抢“全球第一个XX Agent”究竟带来什么? 01:03:00 为啥搞邀请码成了标配? 01:03:56 Lovart火了之后 01:07:30 AI应用创业的know-how 这是我创业最!!爽的!!东西!! 01:19:57 我是双子座,时而发狂,时而很软 01:24:04 与焦虑共生,就是干! 01:25:26 这是我创业最!!爽的!!东西!! 01:28:00 但在这一刻就是好爽啊!!!我爽了好一会儿——就是我朴实的快乐哈哈哈哈哈 01:28:32 给我多少钱、给我多少职级,都买不到 01:32:35 在陌生领域的创新,就像用火柴在潮湿的木头上反复地滑动,点燃又熄灭;直到有一天,你抓住了某一个缝隙,把木柴点燃,火势弥漫整个山洞 01:33:58 2023年底去高瓴办公室,阳光中,我恍惚了 大闹一场,悄然离去 01:35:00 童年:漂泊、武侠小说和电脑游戏 01:26:01 我不知道故乡是哪,只能一直往前走 01:38:46 给其他AI应用创业者的建议 01:42:29 最后的快问快答 【2025上半年Agent创业三部曲】 对Manus创始人肖弘的3小时访谈:世界不是线性外推,做博弈中的重要变量 对YouWare创始人明超平3小时访谈:今天Agent像大猩猩刚拿起一根烧火棍 Lovart创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

105分钟
33k+
4个月前

104. 和Rokid祝铭明聊,吴妈、阿里、硬件创业黑森林的第11年

张小珺Jùn|商业访谈录

随着AI的软件能力向硬件溢出,除了具身智能,智能眼镜或许是另一个会受益的产业。 今天的嘉宾是智能眼镜公司Rokid创始人祝铭明(Misa),2025上半年Misa佩戴其公司开发的智能眼镜出现在一次演讲中,一度引发关注,今年也是他在硬件黑森林里创业的第11个年头。 我们从他的第一家公司1000万美金被阿里并购开始聊起——聊了聊马云和吴妈,也聊了聊他的第二段创业、智能眼镜市场的中美对比、阶段与趋势。 我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:) 02:00 开始的快问快答 02:36 阿里1000万美金收购我的第一个创业公司,全部换成了股票 05:14 最糟糕的时候,马云找我聊,引荐了Joe Cai(蔡崇信),又引荐了王坚博士 08:05 我还有两个星期发薪水,账上只有4000块 15:55 在阿里当高管,吴妈(吴泳铭)提出想做AI,成立M lab 22:43 Rokid的融资、马云的建议 27:40 吴妈当年是我的顶头上司,对吴妈的comments 31:41 2019年重要决策:一星期内从AI切换AR赛道 48:00 像器官一样的硬件会从手机切换到智能眼镜? 59:17 重要决策之后裁员了一大半,清空了一幢楼 01:05:45 转型后第一次PMF 01:09:55 现在的智能眼镜在黑莓到iPhone 1的中间阶段 01:11:52 AI在硬件上的展开:具身智能、随身智能 01:13:05 在智能眼镜,明年上半年会是与巨头竞争的时间点 01:19:29 马云总结创业公司和巨头竞争的4个机会:4个不 01:23:38 中美定义智能眼镜产品的不同 01:41:35 公司价值观第一条是玩心,老板总是那个trouble maker 01:48:32 聊聊杭州创业者们 01:59:05 硬件创业的黑森林 02:27:00 最后的快问快答 【更多信息】 联络我们:微博@张小珺-Benita 更多信息欢迎关注公众号:张小珺

128分钟
22k+
4个月前

117. 开源一段论文探索之旅:模型范式、Infra和数据、语言、多模态的完整变迁史

张小珺Jùn|商业访谈录

今天的嘉宾是谢青池,他是美团光年之外的产品负责人。 一个月前,青池找到我,说他用了一年多的时间一篇一篇地啃完了200多篇AI论文,从开始全然不得要领,到后来逐渐地入门——而他希望将他的论文探索之旅开源给大家。 就这样,我们有了今天这集特别的节目。 他从200多篇论文中精选了36篇经典,4小时讲解,带你穿越AI变迁史。 他说,读论文是“给你打开一扇门”,让你能直接“与这个世界最聪明的头脑对话”。 2025年,期待我们和AI共同进步! 01:30 探索的缘起 07:25 怎么读论文?(用AI学AI) 10:20 辅助小工具和路书 论文讲解的主干: 19:35 Part 1:模型的范式变迁 故事要从1999年的第一颗GPU开始讲起 Brook: 用GPU进行计算 (2004.08) AlexNet: 深度学习的开端(2012.10) 对序列建模:seq2seq和Attention的引入(2014.09) 蒸馏:模型能被学习吗?(2015.03) ResNet: 比深更深(2015.12) Transformer来了!拉开一个时代的序幕(2017.06) AlphaGo Zero: 强化学习的突破(2017.10) 现代MoE的开端(2017.01) CoT: Prompt Engineering的奠基之作(2022.01) LoRA: 那个我们每天都在用的东西(2021.06) ReAct: Agent从理论到落地(2022.10) The Bitter Lesson: 过去70年的教训(2018.08) 01:52:58 Part 2:Infra与数据的变迁 ZeRO: 大规模的GPU并行计算(2019.10) Scaling Law & Chinchilla: 上帝的指挥棒(2020.01 2022.03) LAION-5B: 开源社区的英雄主义(2022.10) The RefinedWeb: 互联网的数据也很够用(2023.06) MegaScale: 万卡GPU集群的训练(2024.02) 02:21:29 Part 3:语言模型的发展 Word2Vec: 用机器学习将单词向量化(2013.01) Google Translate: 神经网络的大规模线上部署(2016.09) GPT-1,它来了(2018.06) BERT: 曾经的王(2018.10) GPT-2: 是时候告别微调了(2019.02) GPT-3: ChatGPT来临前夜(2020.05) InstructGPT: 给LLM以文明(2022.03) Tulu 3: 后训练的开源(2024.11) 03:08:08 Part 4:多模态模型的发展 DeepVideo: 深度学习进入视频领域,Andrej 初出茅庐(2014.06) 双流网络: Karén和学术重镇牛津登场(2014.06) 图像生成的序章: GAN来了(2014.06) Diffusion: 在GAN的阴影下,悄然成长(2015.03) DDPM: Diffusion重回图像舞台的中央(2020.06) ViT: 当图像遇到Transformer(2020.10) CLIP: 文生图的奠基石(2021.03) Stable Diffusion,它来了(2021.12) DiT: 人们期待一个融合的未来(2022.12) 03:56:38 最后的聊天 架构抱住了硬件的大腿 今天技术的边界到达了哪? 给“站在AI世界门外张望的人”和“已经在体系中工作多年的人”的建议 【技术之美】系列: 逐句讲解DeepSeek-R1、Kimi K1.5、OpenAI o1技术报告——“最优美的算法最干净” 逐篇讲解DeepSeek关键9篇论文及创新点——“勇敢者的游戏” 逐篇讲解DeepSeek、Kimi、MiniMax注意力机制新论文——“硬件上的暴力美学” 逐篇讲解机器人基座模型和VLA经典论文——“人就是最智能的VLA” 逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的力量” 【更多信息】 本集的投屏视频版已经同步发布于Bilibili(张小珺商业访谈录):https://www.bilibili.com/video/BV1pkyqBxEdB/?spm_id_from=333.1365.list.card_archive.click&vd_source=aa7c66a3d015be4b5bfcd520784f2790 50页完整PPT开源地址(所有论文链接附在PPT上):https://w7py8ou4dk.feishu.cn/wiki/KacewdlmSiSGC9kUOKDch9gwnKf?from=from_copylink

262分钟
43k+
4个月前

116. 吴明辉口述19年史:漫长的沉浮、痛苦急转、企业级Agentic Model、现实世界的数值游戏、IPO

张小珺Jùn|商业访谈录

今天的嘉宾吴明辉是明略科技的创始人、CEO兼CTO,明略科技于2025年8月29日获境外发行上市备案通知书,不久后将于香港上市。 这是一次上市前的访谈,吴明辉口述一家To B公司漫长的19年故事,其间经历了好多次的分分合合、沉浮与急转。你能在这里面找到许多我们节目嘉宾的身影——肖弘、李广密、杨植麟。 我们也聊了聊面向全新的AI时代,企业服务级AI与Agentic Model的前景。 但这个故事的最开始,要从他与峰瑞资本创始合伙人李丰的公司合并聊起。 2025年,我们和AI共同进步! 02:11 Part 1:第一段创业 开始的快问快答 和我们嘉宾广密、Red的渊源 创业的开始:祝伟投资吴明辉和李丰合并后的公司 最开始罗永浩、李笑来是我们的股东 第一版商业计划书就是推荐系统,为什么没做今日头条? 奥林匹克竞技训练的心理调适 秒针系统的成功 眼睁睁看着今日头条的流量哗啦啦起来 56:08 Part 2:第二段创业 “老板上完商学院,团队遭殃” 同时创立明略科技、云迹机器人 学习美国一家数据分析公司Palantir,但从To G转向To B 收购Red的决策,我希望他做我的CEO successor 2020-2021年:战场开得太宽、走过的弯路 2022年:痛苦的急转,人生最suffer的一年 有AI以后,预计企业级服务会出现并购潮 01:45:01 Part 3:企业服务级AI 基于公开数据训基础模型、以卖Token为商业模式的公司会很卷,卷成电费 有私有Data的公司能产生差异化价值 现实世界的数值游戏 新产品“DeepMiner”的由来 Agent或Tool Use在企业服务领域产生了新的链接 Agent是一种交互技术,对To C和To B互联网都会产生革命性变化 那些不提供供给侧能力、只提供链接网络,而这个网络又不是根结点的公司,会很危险 将来企业只有两类人?老板和合伙人(合伙人不是公司员工) 一个幸福的老板,个人使命、家庭使命和公司使命高度相关

227分钟
34k+
5个月前

115. 对OpenAI姚顺雨3小时访谈:6年Agent研究、人与系统、吞噬的边界、既单极又多元的世界

张小珺Jùn|商业访谈录

今天的嘉宾,我们很开心邀请了OpenAI研究员姚顺雨。 2025年4月,姚顺雨发布了一篇有名的博文《The Second Half》,宣告AI主线程的游戏已进入下半场。这之后,我们与他进行了一场播客对谈。 姚顺雨毕业于清华和普林斯顿大学,开始智能体的研究非常早。在博士期间他意识到语言可能是人类发明的最接近本质的工具,于是转向语言智能体研究,至今已6年。他有许多有代表性的工作。 我们的谈话从个体出发,共同探索由人、组织、AI、人与机器的交互,所抵达的这个世界智能的边界以及人类与机器的全景。 前不久,我刚刚创立了一家新的内容工作室「语言即世界工作室」,顺雨很意外地从另一个角度帮我回答了,我们工作室创立的初心。 为什么我们相信语言是这个世界的本质奥秘?他的表达是:“语言是人为了实现泛化而发明出来的工具,这一点比其他东西更本质。” (本次访谈发生在2025年5月,访谈为个人观点,与所供职公司无关。) 02:58 第一部分:人 * 感觉我前28年的人生,非常的乖 * 我一直有这个非共识:我想要去做Agent * 第一年最大收获是,要用GPT,不要用BERT;第二个learning是任务或环境非常重要 * 我的研究有两个核心:一是怎么去做一些有价值、和现实世界更相关的任务和环境;二是怎么去做一些简单、但又通用的方法 17:50 第二部分:系统 * Agent是一个非常古老的概念,任何能进行自我决策、与环境交互,并试图优化奖励的系统,都可以被称为Agent * Agent演变的三波兴衰:大家可能更多注意到方法线,容易忽视任务线,但这两条线是相辅相成的 * Agent发展最关键的两个方向:一个是让它拥有自己的reward(奖励),能自己探索;另一个是Multi-Agent(多智能体),让它们之间能形成组织结构 * Code有点像人的手,它是AI最重要的affordance(环境给予行动者的可能性) * 任务的设定 * 泛化的工具 * 奖励的机制 48:38 第三部分:吞噬的边界 * 创业公司最大机会是:能设计不同的interface(交互方式) * 可能模型的能力会产生beyond ChatGPT(超越 ChatGPT)的交互方式,变成Super App * 拥有一个Super App对于公司是双刃剑,当你有像ChatGPT这样的Super App,很自然你的研究就会围绕这个Super App * Assistant、Her,或者像人一样的交互方式,显然是最重要的交互方式之一;不显然的是,我能不能基于不像人的交互方式? * 这世界是个相互抄的关系,而不是一个单向抄的关系 * OpenAI可能会成为一个类似Google的公司,成为新世界里非常重要的一环,但这并不代表,这个世界就会被这样一个单极系统垄断 * 最终的智能边界,是由不同的交互方式决定的,而不是由一个single model(单一模型)决定 * 前年冬天,我读到冯诺依曼临终前写的一本书:The Computer and the Brain * 环境永远是记忆层级中最外层的部分,这很哲学 * 模型公司的Chatbot系统会演化成一个很自然的Agent系统 01:05:01 第四部分:人类的全局 * 人与系统:Agent要不要像人?“是一个效用问题” * OpenAI是一个bottom-up(自下而上)的公司 * 如果你没有一个different bet(不同的下注方向),很难超越前面的霸主 * 我导师是GPT‑1第二作者,他在OpenAI待了一年,他对这件事是有点怀疑的 * 如果你成为了伯克希尔的CEO,未来要拿出500亿美金allocate(分配)到AGI行业,你会怎么allocate这笔钱? * 真正的危险,不是一个类似微信的东西打败了微信,而是一个不一样的东西打败了微信 * 恰好这个时代,做上限更高的事更好 【更多信息】 文字版同步上线 文字版请前往公众号:语言即世界language is world

151分钟
13w+
6个月前

114. 与殷一、欧迪聊聊萨洛蒙:中国意外的增长阀门、小众越野跑与少女故事

张小珺Jùn|商业访谈录

今天的嘉宾是萨洛蒙中国区总经理殷一和小红书商业服饰潮流行业负责人欧迪。我们一起来聊聊,这两年比较火的一个户外品牌,萨洛蒙。 萨洛蒙和始祖鸟都属于亚玛芬集团,2019年亚玛芬被安踏收购;2021年以后,萨洛蒙这个70多岁的法国品牌,意外在中国开启了增长之路。 这个最早从滑雪品类起步,逐步扩展到越野跑鞋的小众品牌,在中国的传统消费群体以男性以及专业滑雪、越野跑爱好者为主;但近几年,他们通过在小红书的一系列品牌行为,成功吸引女性消费群体和新户外人群,扩圈增长,而这又进一步反向刺激了男性消费者以及核心运动人群的增长。 希望这些新鲜的品牌知识,也能给你带来新的启发:) 02:00 两位嘉宾的自我介绍 03:06 萨洛蒙1947年诞生于法国,雪是DNA里最深的那道烙印 04:39 我们曾经被阿迪达斯收购,阿迪达斯帮我们做了sports style 06:04 越野跑核心人群,十年前只有10万人,今年也是10万人,区别是什么? 11:52 品牌应该从小众走向大众,还是从大众走向小众? 16:22 2019年母公司亚玛芬被安踏收购后,萨洛蒙发生了什么? 18:07 中国女性占比最高接近七成,现在是六成不到 20:45 女性对男性的拉新高于男性对女性的拉新 23:21 2021年以后,越来越多海外户外品牌主动地集中进入中国 27:31 小红书帮萨洛蒙拓展人群:“尖货尝新档”和“色彩敏感控” 34:55 以人为主体的品牌策略:找到“超级用户代表” 43:26 10年前我们做品牌会更注重the winning moments,现在更注重成长的过程和细节 45:37 萨门少女背后的消费者洞察:女性不再追求仪式感的堆叠,更追求内心的松弛 48:36 结合小红书和安福路萨洛蒙门店,线上和线下循环流量 55:24 萨洛蒙拉新女性消费者,又反哺了男性消费者的增长 58:16 如果一个非常男性化的品牌想要女性化,应该怎么做? 01:00:43 潮流化会不会削弱专业户外基因? 01:01:33 年轻人消费新变化 01:08:05 当做AI品牌也像做消费品品牌,从品牌角度给AI创始人一些建议 分享一下漂亮的录制现场:

78分钟
14k+
6个月前

113. 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和“站在无限的开端”

张小珺Jùn|商业访谈录

今天的嘉宾是月之暗面创始人兼CEO杨植麟,距离他上一次来我们的节目(《商业访谈录》59集)已经过去1年半。 就在刚刚过去的7月,Kimi K2模型发布,引发了比较广泛的关注。K2是一个基于MoE架构的开源编程和Agentic大语言模型。形象来说,模型借助编程能力走出封闭的“缸中之脑”,长出了“手”,开始操控外部数字世界。 今天这集节目我和杨植麟聊了聊K2的研发和他当下的技术认知、技术判断。 以及,在过去一年的舆论风暴与创业起伏中,作为创始人,他的心情与思考。 01:49 一座无限的山 这有点像我最近在看的一本书:The Beginning of Infinity(无穷的开始) 也许有一天会发现,这座雪山没有尽头,我希望它一直没有尽头 但它还是一个“缸中之脑”:想象一个鱼缸,你把一个脑子放在里面,跟外界没有联系 不管是基于长思考的强化学习,还是Agent的强化学习,都指向同一个东西:test-time scaling(测试时扩展) 还有一个很有意思的趋势是,现在有更多模型公司去做“一方的Agent产品” L1到L5不一定是串行关系,Claude就bet这一点:它在Reasoning上做得不是特别多,但在Agent上做得非常好 只有当模型参与到开发过程,才能解锁真正的Innovator(L4)阶段 24:58 K2是乔戈里峰 K2的重点有几个:一,我们希望它是一个非常好的基础模型 我们希望能最大化使用每一份数据,就是所谓token efficiency——喂一样多的数据,“脑子”长得更多 我们会对数据做很多Rephrase(改写)操作 我们很关注Muon优化器,它对token efficiency提升很大 二,我们希望K2有好的Agentic能力,对于Agentic模型来讲,最大挑战是模型的泛化 它可能是一个从“缸中之脑”变成可以跟世界交互,因为所谓Agent最重要的特征是,可以多轮地使用工具 人是所谓的universal constructor(万能构造器) 有一种潜在思路,需要用更AI native(原生人工智能)的方式去训练AI Muon你去训的时候,它会炸 54:08 既简单又复杂的系统 为什么Kimi从闭源转向开源? 模型训练完成,产品也基本完成了,做交互上的改进当然有价值,但那是锦上添花的一步 多模态不损伤“脑子”已经很好了 你可能学出来的多模态是个“傻的多模态”,我们希望它是个“聪明的多模态” Scaling Law遇到数据墙了,这是客观事实 数据飞轮很依赖外部环境的feedback(反馈),我们不希望feedback有很多噪声,但现在没有把这个问题解决得非常好 现在看起来,基于FLOPs的scaling是更有效路径,但这个平衡什么时候会发生变化? 很多Long Context架构会影响“智商” 纯粹的Linear Attention(线性注意力机制)可能影响智商,因为这个架构会有一些bias(偏差) 基座模型公司和做Agent产品的应用公司,长期看边界在哪? 今天怎么思考商业模式?API是好生意吗? Kimi能赚钱吗? 01:25:05 在自己的故事里面 Tim(周昕宇)天天跟我讲——要用RL的方式去管理,而不是用SFT 用RL管理团队最大问题是,你容易被hack 很多复杂性都是人为强行加上去的,实际并没有那么复杂 只能说是在自己的这个故事里面——你不断地感受自己到底是什么样的一个人,你为什么要做这个事情 这个问题我也问过Kimi,他说,AI是“人类文明的放大器” 这也是Kimi跟我讲的——任何中间状态都有可能成为被批评的对象 肯定有恐惧,更多要关注你当前这一步,能做什么?——想这个问题更重要 2024年对杨植麟的访谈: 《和杨植麟聊大模型创业这一年:人类理想的增量、有概率的非共识和Sora》 【更多信息】 文字和视频版同步上线 文字版请前往公众号:语言即世界language is world 视频版请前往Bilibili:张小珺商业访谈录

101分钟
49k+
6个月前

112. 和广密聊大模型季报:分化与收敛、全家桶与垂直整合、L4体验与挖矿窗口

张小珺Jùn|商业访谈录

在大家的强烈催更下,新一集的《全球大模型季报》终于来了。 这一集有两个关键词。 第一个关键词是分化。硅谷各个模型公司在这个季度,开始分化到各个领域,除了Google Gemini和OpenAI还在做通用的模型;Anthropic分化到Coding、Agentic的模型能力;Mira的Thinking Machines分化到多模态和下一代交互。 第二个关键词是产品。《大模型季报》过去一直把视角放在模型的智能探索上,而广密开始浓墨重彩地聊产品,这还是第一次。 这里是《全球大模型季报》的第7集,如果大家喜欢我们的系列,希望大家多多给我们一些鼓励和支持。你们的夸奖对我们来说,非常的重要。 2025,期待我们和AI共同进步! 03:54 模型在分化 通用各项能力的模型 - Gemini/OpenAI All in Coding+Agentic 能力 - Anthropic 多模态原生 - Thinking Machines Lab Grok 今天还在摸索自己生态位置 Meta 原创 0-1 的基因还是很弱 最领先的这几家很像 F1 竞赛 21:37 横向全家桶,纵向垂直整合 C端是一个非常明显的头部收敛趋势,ChatGPT可能在C端会收敛掉很多产品 作为投资人或 AI 创业者,一面兴奋是技术每个月都在进步,另一面有点绝望 横向全家桶的例子是ChatGPT,已经包含了Chat+搜索+Coding+Agent+WorkSpace 纵向垂直整合的例子是 Gemini,从 TPU 芯片,到 Gemini 模型,到上面 Agent 应用,再到 Google 文档/Chrome浏览器/安卓操作系统/YouTube视频,可以做超级集成 33:35 智能和产品都重要 过去 3 年一直是对智能上限的探索极度上头,但在过去两个月开始重视产品了 ChatGPT 身上有很多非技术性壁垒,而 Coding 或模型公司只是技术壁垒 OpenAI 是平衡最好的一家,一边探索智能上限,一边又把智能红利转化成产品流量和品牌心智 38:52 做 AI 产品很像挖矿,保鲜窗口很关键 挖矿:第一个做出来让用户惊叹的体验很重要,哪怕 token 消耗很大,只要你是第一个做出来让用户惊叹的 Magic moments,就等于你起码得到了 5 亿美金的营销费用,比如 Perplexity/Cursor/Manus 但这个窗口期又特别有意思,窗口是逐渐在缩短的:从 2 年、1 年、3 个月 产品公司能赢过模型公司做的产品吗? 44:21 L4 级别的体验 最优秀的俩 Agent 都有了 L4 体验:ChatGPT 的 Deep Research + Anthropic 的 Claude Code,分别对应信息搜索+软件开发 今天最大红利还是 language/code 红利,尤其是 code,还不是多模态/世界模型/机器人 Claude Code 最近大杀四方,Claude Code 是一个 L4 的体验 接下来还有哪些领域能有 L4 级别体验? 52:43 对Google看法的转变 一个猜想是,ChatGPT 后面肯定会做广告平台,因为最近招了新的商业化 CEO 但我在想 Google 还是全球最好的广告平台,最后大家产品形态上都会殊途同归,融合到一起的,就是全家桶逻辑,Search 也会演变 55:53 其他话题 AGI有泡沫吗?假如AGI有泡沫,什么事情会是导火索,戳破泡沫? 人类和大猩猩的智能水平差异在哪? 最近湾区有没有什么新的讨论比较高的话题? “犹太人的金融,华人的AGI” (免责声明:本节目不构成投资建议) 【全球大模型季报】系列 2023年:口述全球大模型这一年:人类千亿科学豪赌与参差的中美景观 2024年Q1:和广密聊AGI大基建时代:电+芯片=产出智能 2024年Q2:口述全球大模型这半年:Perplexity突然火爆和尚未爆发的AI应用生态 2024年Q3:AGI范式大转移:和广密预言草莓、OpenAI o1和self-play RL 2024年Q4:大模型季报年终特辑:和广密预言LLM产品超越Google之路 2025年Q1:大模型季报:和广密聊当下最大非共识、AGI的主线与主峰

69分钟
24k+
7个月前

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧