「继续来聊“注意力”,不止技术,也有研发故事。」 (本期因录音 bug,音质有波动;不时出现“变声期”,请见谅。) 上期,我们与清华的两位博士生,肖朝军和傅天予,聊了稀疏注意力机制的改进,也以注意力为线索,串起了大模型的优化史。上期主要聊了稀疏注意力。 这期,我们来聊注意力机制的另一大改进方向:线性注意力。 MiniMax 在今年 1 月发布了参数为 4560 亿的开源大模型 MiniMax-01,01 就用到了他们开发的线性注意力机制,lightning attention。 本期,我邀请了这个项目的负责人,MiniMax 高级研究总监,负责 01 模型网络架构的钟怡然,来与我们一起聊研究线性注意力的研发过程。 钟怡然曾担任上海人工智能实验室青年科学家,是新架构探索组的 PI,也就是项目负责人;他在澳洲国立大学获得博士学位,师从李宏东教授和 Richard Hartley 院士。 在 2021 年,线性注意力还是一个“看起来很美好的泡泡”,怡然和团队就开始探索线性架构的实现。 当 2024 年年中,MiniMax 开始用大量算力资源训练线性架构的 4560 亿参数的新一代模型 01 时,线性架构能在大规模模型上 work 是非共识。但闫俊杰最后拍板,投了公司超过 80% 的研发资源。 当然,训练模型不是戏剧性的梭哈。在训 01 前,MiniMax 团队通过 3700 次预训练测试,去预测这种新架构在更大参数的模型是否也有好的表现。(这其中不少都是小规模实验。)这期节目,我们完整聊了这个过程。 在效率上线上,从计算方法推导,当序列非常长,线性注意力在计算效率上的的优势会越来越大于稀疏注意力。但从效果上,也就是线性注意力的模型,能否和 Transformer 模型一样聪明,甚至更聪明。现在还没有谁能给出有绝对说服力的答案。 这也是之后 MiniMax 的技术进展,可能会揭晓的悬念。 本期嘉宾: 钟怡然,MiniMax 高级研发总监 时间线跳转: - MiniMax 开源:为什么第一个模型选了 01 05:46 开源是为了展示架构创新,吸引更多人才 08:20 开源后社区反馈集中在推理效率与多模态支持,MiniMax 把推理优化贡献到了开源框架 vLLM 中 10:20 开源要有影响力需要更多工作,MiniMax-01 当前开源版本参数过大,个人开发者确实参与受限 - MiniMax-01 中的线性注意力改进:7 混 1 结构,100 万 Token 序列长度下提速 2700 倍 13:11 线性注意力的核心思想是通过调整QKV矩阵计算顺序,将复杂度从二次降至线性 15:26 稀疏注意力(如NSA、Mobile)在小模型表现尚可,但线性注意力在参数规模扩大后优势显著 20:23 纯线性注意力在召回能力(如“大海捞针”任务)上存在缺陷,团队通过混合架构(每 7 层线性注意力加入 1 层 Softmax 注意力)优化 27:31 混合架构在 100 万 Token 序列长度下实现 2700 倍加速,同时模型效果优于纯 Transformer 28:27 3700 次小模型实验验证架构可扩展性,扩大规模前要做充分验证 - 21 年开始的线性架构研发之旅:从“美好的泡泡”到 4560 亿参数大模型 30:24 2021 年开始做线性注意力研发时,它还是一个“美好的泡泡” 35:19 “我们是最懂线性注意力的人”,为什么这个模型不诞生在我们手上? 41:20 50% 的把握,投 80% 的资源 42:46 上规模后,发现了召回缺陷;一张大表,3700 个预训练任务 50:46 一个测试例子:MiniMax-01、DeepSeek-R1 表现不及 Kimi-k1.5,可能和数据构造有关 52:52 线性架构也许是更适合推理模型的架构 01:00:51 线性架构能 work,仍是非共识 - “道心”之争 01:02:00 钟怡然坚信线性注意力是“无损优化”,混合架构效果甚至优于传统Transformer 01:11:23 MiniMax计划4月发布深度推理多模态模型,整合线性架构、原生多模态与强化学习 01:22:18 AGI愿景 vs 竞争驱动:DeepSeek 爆火后,但不改变产品是技术最大的证明 相关链接: 103:用 Attention 串起大模型优化史,详解DeepSeek、Kimi最新注意力机制改进 99:MiniMax创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 71:“如果相信只靠 Scailng Laws 就能实现 AGI,你该改行了”,与香港大学马毅聊智能 101:与王小川聊AIX医疗:通向“生命科学的数学原理” 103 期晚点聊图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 附录: QKV 计算:Query-Key-Value计算,注意力机制中用于生成上下文感知向量的核心步骤。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 Jamba:由 AI21 Labs 在 2024 年提出的结合 Mamba 与 Transformer 的混合架构模型。 vLLM:由加州大学伯克利分校在 2023 年提出的开源大模型推理加速框架。 有损优化:以牺牲部分模型性能为代价换取计算效率或资源节省的优化方法。 无损优化:在不影响模型性能的前提下提升计算效率或资源利用率的优化策略。 (另,更多关于线性注意力机制的术语也可见上期注释) 剪辑制作:Nick 本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
「与 InfLLM 与 MoA 的两位作者一起聊注意力。注意“注意力”是为了可预见的长长长……文本。」 (题图:levelsio.com 上售卖的 Attention 鸭舌帽。) 本期图文版:《大模型 “注意力简史”:与两位 AI 研究者从 DeepSeek、Kimi 最新改进聊起》 上周,DeepSeek、Kimi 都放出了新的大模型架构改进和优化成果,分别是 NSA、MoBA(GitHub)。他们都聚焦到了对大模型中的“注意力机制”的改进。 注意力机制是大语言模型(LLM)的核心机制。回到 2017 年 6 月那篇开启大语言模型革命的 Transformer 八子论文,标题就是:Attention Is All You Need(注意力就是你所需要的一切)。 而优化 Attention 的计算效率和效果,又能帮助解决,AI 学界和业界,都非常关心的一个问题,就是长文本,long context——不管是要一次输入一整本书,让模型能帮我们提炼、理解;还是在现在用强化学习来提升推理能力的范式转型后,需要生成长思维链;又或者是,我们未来希望模型有越来越长的“记忆”,这都需要长文本能力的支持。 这期节目,我们邀请了两位也做过 Attention 机制改进的 AI 研究者,一起聊 attention 它是什么,过去的瓶颈在哪儿,以及最新的 NSA、MoBA 这些成果带来了哪些启发;和未来注意力机制及更广泛的长文本能力提升上,有哪些趋势和方向。 本期嘉宾: * 清华自然语言处理实验室的博士肖朝军,他是 InfLLM(GitHub)注意力机制改进的一作,导师是清华计算机系的刘知远。(Email:[email protected]) * 清华 NICS-EFC 实验室的博士傅天予,他是 MoA(GitHub)注意力机制改进的共同一作,导师是清华电子工程系的主任汪玉。汪老师的实验室也做了很多与硬件层结合的优化工作。(Email:[email protected]) NICS-EFC 实验室最近也开源了一个与多模态注意力机制改进相关的成果 FrameFusion(GitHub)。 他们之前的成果都和 NSA、MoBA 一样属于“稀疏注意力”改进的范畴。 注意力机制是一个会涉及较多技术细节的话题。我在 shownotes 的末尾贴了一些术语和过往注意力优化成果的简单解释,希望可以帮大家更好得理解。 如果你虽然不是一个 AI 从业者,但又因为兴趣、好奇或工作需要,非常希望由浅入深得了解更具体的技术机制和进展。欢迎多听我们的节目,这次我也在 shownotes 里贴了一些 AI 大神用相对通俗方式讲解 AI 的视频节目的地址。 让我们一起学习起来! 不是每个人都需要或有精力去了解 AI 底层技术,但很多人都会被 AI 影响,都需要“智能思维”。 时间线跳转 * 注意力机制是什么 & 工作原理? 00:05 注意力机制是大语言模型的核心,优化注意力机制计算效率与效果对长文本处理至关重要 06:00 注意力机制本质是建立词与上下文的动态关联,解决传统 RNN 的遗忘问题 10:08 Transformer 原本的 Full Attention 通过存储所有词向量解决长文本遗忘,但面临存储与计算复杂度瓶颈 12:24 注意力机制 N 方复杂度导致显存与时间开销爆炸,稀疏化成为改进选择 15:25 稀疏注意力与线性注意力(RNN 思路)是注意力机制两大改进方向,各有优劣 16:27 之前稀疏注意力更主流,但 Mamba 之后,线性注意力也比较火 18:27 算法、系统、硬件三层优化共同提升效率,如 MoE 与生成范式革新也能帮助处理长文本 * 详解 NSA 与 MoBA:都是把稀疏注意力引入了训练阶段 21:06 动态稀疏效果更好但计算效率低,静态稀疏(如滑动窗口)更高效但效果受限 24:06 NSA 与 MoBA 聚焦预训练阶段稀疏化,解决训练与推理的机制差异 30:27 NSA 与 MoBA 均采用动态与静态混合策略,块状稀疏设计适配硬件特性 24:55 稀疏训练突破性能上限质疑,NSA 论文证明效果可超越稠密注意力 27:23 长思维链(CoT)与 RL 需求推动稀疏注意力落地训练阶段 36:50 块状稀疏设计(Block-Level)优化 GPU 并行与内存访问效率 42:06 NSA 实测推理加速显著,MoBA 强调保留关键注意力头提升长程关联 48:21 实验关注训练曲线稳定性与长 CoT 生成能力,而非传统 Benchmark ---两篇paper 中的训练曲线(Training Curve)的图示: 上图:MoBA 论文中的 Figure3 上图:NSA 论文中的 Figure4 * 未来方向与 AGI 的终极想象 55:32 存储压缩与多模态长序列处理是下一阶段关键挑战 57:55 记忆架构需突破全存与固定存储的极端,探索类人动态决策机制 01:02:04 长文本能力支撑多模态推理(视频、科研)、情感记忆与知识服务 01:16:28 AGI 需具备科研能力突破知识边界,记忆与效率优化是底层支撑 01:22:03 自组织 AGI 可能颠覆人类对智能的定义,动机与伦理仍是未知领域 * 总结与预告 01:26:38 稀疏注意力解决存储与计算瓶颈,训练阶段改进适配 RL 与多模态需求 01:27:21 线性注意力(如 MiniMax 01)是另一重要方向,下期节目将深入探讨 相关链接 AI 视频科普视频推荐:1hr Talk Intro to Large Language Models (Andrej Karpathy) 月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖 晚点聊 102: DeepSeek 启动开源周,大模型开源到底在开什么? 附录 (基本按本期播客中的出场顺序) 稀疏注意力:仅关注输入序列中部分关键位置的注意力机制,降低计算复杂度。 稠密 VS 稀疏:稠密指数据/计算全连接;稀疏指仅部分连接,效率更高。 稀疏计算:仅处理非零数据的计算方式,显存和算力需求更低。 稠密计算:处理所有数据的计算方式,计算量较大但精度高。 128k、1M 等:是在描述文本的长度,128k 就是 12.8 万。 显存:显卡存储空间,用于存放模型参数和计算中间结果。 算子:基础计算单元(如矩阵乘法),硬件加速优化的核心对象。 Sequence 序列:有序数据集合(如文本、语音),模型处理的基本单位。 RNN 循环神经网络:通过时序传递状态处理序列数据的神经网络架构。 梯度消失、梯度爆炸:反向传播中梯度指数级减小或增大,导致模型无法训练。 Token:文本的最小语义单元(如词、子词),模型输入的基本元素。 长文本:模型支持处理的超长输入序列(如数万token)。 BERT:由Google在2018年提出的基于双向Transformer的预训练语言模型。 Full Attention:标准注意力机制,计算所有位置间关系,复杂度O(N²)。 N方复杂度:计算量随序列长度N呈平方增长(如O(N²))。 Softmax:归一化函数,将向量映射为概率分布。 Softmax Attention:标准注意力实现,含Softmax计算相似度权重。 Attention Score:注意力权重,表示输入位置间相关性强度。 Mamba:由卡内基梅隆大学在2023年提出的基于状态空间模型的高效长序列建模架构。 线性注意力:通过核函数近似实现线性复杂度的注意力机制。 Tri Dao、Albert Gu:两位 AI 研究者,其中 Tri Dao 是 FlashAttention 的作者,两位也都是 Mamba 的作者。 FlashAttention:由斯坦福大学在2022年提出的显存高效注意力算法,通过分块计算减少IO开销。 MoE 混合专家系统:动态路由至不同子模型提升容量的架构。 MLA:多层注意力机制,增强模型复杂模式捕获能力。 Mooncake:Kimi 和清华大学联合开发的大规模稀疏训练框架。 GitHub 库:代码托管平台,开源项目协作与版本管理工具。 预印本平台(arXiv):学术论文预发布平台,加速研究成果传播。 长思维链:扩展版思维链提示,通过长推理步骤提升模型表现。 Block:计算或数据的基本分块单位(如Transformer块)。 Triton:由OpenAI开发的GPU编程语言与编译器,支持高效自定义算子开发。 Decoding 阶段加速:减少生成式模型逐token输出的推理延迟。 Query:注意力机制中用于匹配Key的向量。 Training Curve:训练过程中指标(如损失)随迭代的变化曲线。 消融实验:逐步移除模型组件以验证其贡献的实验方法。 KV Compression:压缩注意力中的Key-Value缓存以节省显存 KV Eviction:淘汰不重要Key-Value,维持长上下文效率。(以上两个项目是在描述对多模态的注意力机制优化的以往相关成果时提及) FrameFusion:视频多帧融合技术,提升时序建模效果。(讨论多模态注意力优化时,天予提到的清华 NICS-EFC 实验室最近开源的一个成果) 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
「与西北大学(NU) MLL Lab 博士生王子涵“逛”开源。」 (题图:开源大模型推理框架 vLLM 的 GitHub 页面截图,该项目已有 800 多社区贡献者。) 上周五,DeepSeek 在官方 twitter 上预告了下一周会连续 5 天开源 5 个代码库,进入 open-source week,开源周。 我们录制节目的这天是周一,DeepSeek 也正式放出了开源周的第一个开源项目 FlashMLA。 我一直很想和人好好聊一下,大模型开源是在开什么,怎么开。比如相比闭源模型,开源要额外做一些什么工作,才能让社区比较好地理解到这个开源成果,以及能更充分地把开源用起来。 正好在 DeepSeek 这个开源周,我邀请到了正在美国西北大学 MLL lab 攻读博士学位的王子涵。 子涵今年刚博一,之前毕业于人大,大四时,也就是 2024 年,他曾在 DeepSeek 实习半年,今年暑假即将前往一家美国 AI Agent 从创业公司,Yutori 实习。 随着 DeepSeek 在春节的爆火出圈,开源也正成为一种趋势:之前一直模型闭源的一些公司,如 MiniMax、阶跃星辰,从 1 月到现在都陆续发布了自己的第一批开源模型。 之前选择保留自己最强模型闭源,开源较小版本模型的公司,可能也会在 DeepSeek 的冲击波里有新选择。 这期我和子涵聊到了开源模型不同的层级,主要有技术报告,模型权重,推理框架,训练框架,还有数据集。现在我们说一个模型是开源的,一般指的是有技术报告也开放了模型权重。再往下更深入的开源,是推理框架和训练框架。而现在只有极少数的机构,比如 Allen AI 研究所,他们也开放过预训练的数据集。 我们也在一起围观 DeepSeek 开源周的过程中,回顾了他们之前开源模型的一些重点优化思路,以及他们为了让社区充分理解和使用开源成果,而专门花费心力去规范代码,写详细的技术报告。这背后是一个组织对优先级的选择。 而在本期最后,子涵也分享了一个自己成为开源模型滥用“受害者”的亲身经历。开源在加速技术进化,如 DeepSeek 开源周 twitter 预告里所写:acclerates the journey;也带来一些隐患,需要整个领域一边开源,一边探索解决。 马斯克曾经说:“有人问我是不是想死在火星上,我说当然,但不是死于(登陆器降落时的)撞击。” 登场人物: 嘉宾:王子涵,西北大学 MLL Lab 博士生 (个人主页 https://zihanwang314.github.io) 主播:程曼祺,《晚点 LatePost》科技报道负责人 剪辑制作:甜食 本期节目中提及的一些开源项目的 GitHub 页面: DeepSeek:https://github.com/deepseek-ai DeepSeek/Open-Infra-Indes:https://github.com/deepseek-ai/open-infra-index DeepSeek/FlashMLA:https://github.com/deepseek-ai/FlashMLA vLLM:https://github.com/vllm-project/vllm SGLang:https://github.com/sgl-project/sglang 字节跳动/Verl:https://github.com/volcengine/verl DeepSeek/ESFT:https://github.com/deepseek-ai/ESFT 本期节目涉及一些AI 项目、机构,见 shownotes 末尾附录。 时间线跳转: -DeepSeek 开源周指向 Infra,已放出第一个库 FlashMLA 02:20 过往实习、工作中的开源项目 03:18 王子涵分享自己开源工作,包括在数研时做的 agent 相关 benchmark,以及参与 DPCVR 研发和关于 DPCRY 加 agent 的开源报告。 05:17 DeepSeek 开源周预告,强调 Small but sincere;第一个库已发布:FlashMLA;未来开源方向推测 09:30 FlashMLA,一个用 C++ 语言写到算子层的推理框架优化;像 DeepSeek 这样做大量更底层算子优化的努力比较难 17:14 FlashMLA GitHub 反馈(issues)速览:有人想要 FP8,有人问何时支持 NPU? -一起来逛 GitHub 库,大模型开源是在开什么 19:23 一起逛 GitHub 仓库(Repo),在开源项目里该看什么? ·看 license(开源协议),DeepSeek 惯常使用的 MIT 协议,开放、简洁、免责 ·看 readme,树状学习库的基本信息,需要的环境、如何部署 ·子涵更喜欢看 issues,而不是 star,issue 反映多少人在深度玩这个库;PR(Pull Requests)是更深度的代码贡献。 31:30 大模型开源到底在开什么:技术报告、模型权重、推理框架、训练框架、数据集。一般一个开源模型都有技术报告和权重,但推理和训练框架的代码和数据集则不一定,尤其是数据集。 35:23 vLLM、SGLang,两个活跃的开源推理库;模型权重的下载途径;字节其实开源过一般较少开源的训练框架 (Verl) 41:25 数据开源几乎没有,主要是出于信息敏感性和安全性考虑。 42:38 除了数据集,DeepSeek 已开源过上述各部分,其中子涵参与的 ESFT 工作就也开源了训练框架。 44:16 从闭源到开源,需要 another layer of hard work:如规范代码、适配开源推理或训练框架。 -不同的开源策略:开源最强模型 VS 有所保留 49:14 不同开源策略主要和盈利模式与诉求有关。不靠 API 赚钱或期望推动更大格局变化(如形成标准)可能选择开源最强模型;另外,一些非盈利机构也会“非常开”,如 Allen AI 和 EleutherAI,罕见地开源了数据集。 51:29 是否会看到 OpenAI 开源最强模型?不确定。Sam Altman 在 twitter 发起投票的两个开源选项(o3-mini 和 phone-sized model)都值得期待。 52:36 子涵分享一个大模型滥用案例:自己推特账号被黑经历,“受害者”现身说法。 53:32 Ilya:“if you value intelligence above all other human qualities, you’re gonna have a bad time.” 附录: Allen AI(Allen Institute for AI):已故微软联合创始人、慈善家保罗・艾伦于 2014 年创立的非盈利研究机构 Eleuther:一个草根、非盈利 AI 研究机构 FlashAttention:基于分块计算的注意力优化技术,减少内存占用并提升效率 MLA:多头潜在注意力机制,优化长序列处理效率 vLLM:大语言模型推理框架,优化显存管理和吞吐量 SGLang:结构化生成框架,支持灵活域特定语言控制 ESFT(Expert Specialized Fine-Tuning):专家特化微调技术 NPU:神经网络处理器(一种 AI 芯片),专为深度学习计算优化能效 FP8:混合精度计算格式,平衡性能与数值稳定性 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 相关链接 光年之外联创再出发,与袁进辉聊 AI Infra 到底做什么? DeepSeek Inside:彻底的技术开放,成就的商业奇观 本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
「从把物理变数学,到把语言变数学,再到把生命变数学」 将近 8 个月没有更新大的模型版本后,百川在春节前发布了推理模型 Baichuan-M1-Preview。在一批头部大模型公司中,百川在 24 年年中明确做出了选择:聚焦医疗。 这是王小川长久的关注,他说:2000 年,他研究生的毕业论文就是做基因测序的拼接算法,当时他就想知道,生命的数学原理是什么?因为发现数学、物理等科学体系不足以解释生命了,他还去研究了中医,也投资过中医公司。他认为中医是一种哲学。 在 2023 年成立的百川上,王小川统一了他对生命科学的长久关注与追求 AGI。这让成立之初,讲通用模型和应用的百川看起来 “变了” 、 “慢了”,也走到了焦点之外。去年,百川既不参与模型 API 价格战,也没有跟进投流大战。 社交媒体上出现不看好百川的声音。也有投资人告诉我:“百川其实是最稳的大模型独角兽之一”——累计融资超 50 亿元,却没怎么烧钱。 在百川发布新模型 M1 后,我们访谈了王小川,聊了百川做医疗的源起,王小川理解的 AGI 与医疗和生命科学的关系,以及百川已经发生的落地实践——2025 年一季度,每个海淀居民就可能有一个 AI 医生助理。 多数人认为做医疗是转向垂直领域,王小川的逻辑则是:医疗不是垂直场景,因为任何一个 AI 技术在医疗上都有用武之地,它不会被今天的 AI 淹没掉。 当更多同行与科技大公司在同一个战壕里厮杀时,强调创业要“走出大厂射程之外”的王小川看到了什么?以下是他的阶段性回答。 登场人物: 嘉宾:王小川,百川智能创始人兼 CEO 主播:程曼祺,《晚点 LatePost》科技报道负责人。 时间线跳转: - 中国公司快速做出推理模型 03:28 内蒙古脑梗患者案例,百川 M1 给出的诊断方向与协和医院会诊高度吻合 03:41 走向开源是既定计划,方便医疗行业上手调优 06:09 快速追 o1:蒸馏不是秘密 07:35 DeepSeek “技术慢半步”超出预期 - 造医生等于 AGI,医疗不是垂直领域 12:53 成立百川时就想做医疗,2016 AlphaGo 和魏则西事件带来的思考 14:48 2000 年就做基因测序拼接算法,好奇生命的数学原理,研究中医 17:21 ChatGPT 带来的判断:语言是中轴,AI 不是第四次工业革命 20:36 为什么成立时未特别强调医疗? 21:20 为何医疗不是垂直? & 团队反馈 - 落地应用:北京儿童医院、海淀区 26:47 与北京儿童医院合作,为什么从儿科开始 30:52 今年一季度,每个海淀居民会有 AI 医生助理 31:57 三种付费方式:政府、医院和商保等;另一个机会是出海 36:53 做大模型后“见过的省长和市委书记比过去都多” 38:45 招投标过程分享 - 医疗,怎么继续超级模型+超级应用? 40:37 训练医疗超级模型成本更高,但有相应价值。 42:47 中国一年就诊人次超 84 亿 45:24 医疗行业不会被通用智能吃掉,因数据、场景特殊性 - 语言是主轴,直接用图像、视频训练是走偏了 47:56 M1 有多模态,主要是为了交互,多模态不能开辟技术赛道 48:21 o1 验证了语言是智能主轴 51:18 下一个范式迁移是 AI 自己造工具 52:57 怎么看“Yann LeCunt 认为只靠语言无法让 AI 理解真实世界规律”? 56:19 更远的未来:义体化、攻壳机动队、AI 延续“人类文明” - 从搜狗到百川58:30 两次创业比较 01:02:02 需要更多年轻人 01:05:13 去年一年,创造了什么?健康、快乐吗? 01:06:57 室温超导带来“蒙圈”,参与 AI 浪潮的幸运 01:14:05 99.99% 的人低估了变化,大模型有望让世界更平 01:15:53 2025 年的两个期待 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 本期访谈图文版: 晚点对话王小川|不是文本创作、不是物理模型,AGI 的尽头是生命科学 往期 AI 大模型播客 MiniMax 创始人闫俊杰:做大模型,千万别套用移动互联网的逻辑 李开复聊零一部分团队并入阿里:只有大厂能追逐超大模型 硅谷怎么看 DeepSeek?与 Fusion Fund 张璐聊开源、Agent 和“除了AI” 剪辑制作:甜食 本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
「技术的力量,开源的力量,初创生态的力量」 2025 年 1 月,农历春节也没有让模型竞赛丝毫减速。DeepSeek 发布开源推理模型 R1,以相对低的成本,在一些 Benchmark 上比肩 ,甚至超越了 o1 的表现,在全球掀起了广泛讨论。 这期节目,我们邀请了 2015 年,在硅谷创立了 FusionFund 的投资人张璐,来和我们一起聊一聊,当前美国科技圈和硅谷语境中,对 DeepSeek 等模型的讨论。 我们也延展聊了 DeepSeek-R1 和 o1 等推理模型打开的 Agent(智能体)应用空间;以及在美国的科技投资视野中,除了 AI ,大家还在关注什么。 FusionFund 曾投资 SpaceX、AI 音频公司 Otter.ai 还有 AI 与医疗结合的公司 Subtle Medical 等。在 AI 领域,Fusion Fund 重点投资美国本土的 to B AI 公司,关注 AI 与医疗、太空科技等领域的结合。 张璐认为,DeepSeek 能有如此出圈的影响力,重要原因之一是开源生态的胜利,而开源的繁荣更有利于初创企业。 张璐也谈了她对“DeepSeek”利空英伟达和 GPU 算力需求,以及 Meta 等美国科技大公司感到的压力。 她的观察是,长线看,DeepSeek 这类大幅降低 AI 模型训练、部署和使用成本的开源成果,会促进更多公司把 AI 大模型带到各行各业,这会提升 AI 用量和算力需求,对算力并不是一个利空。 对 Meta 这样大力投入开源的大型科技公司,张璐认为,它们的一些贡献和整个开源社区的进展,本身是 R1 这类成果出现的条件之一,同时 Meta 作为美国 AI 开源生态的主要玩家之一,也会长期受益于开源的繁荣。 我们聊这期节目时,是 2025 年 1 月 27 日上午,当天晚上,英伟达股价大跌超 17%,市值蒸发超 5000 亿美元。 这次波动幅度超出一些人的预期,但也许并不影响长期的趋势判断。1 月 28 日,英伟达又反弹 8%,股价从前一天最低约 116 美元回升至 129 美元。你“抄底”了吗? 登场人物: 嘉宾:张璐,Fusion Fund 创始合伙人 主播:程曼祺,《晚点 LatePost》科技报道负责人。 时间线跳转: - DeepSeek“冲击”,开源生态的胜利 02:51 张璐达沃斯峰会期间,各路商业领袖讨论 DeepSeek 04:13 去年年中,Anthropic 和 OpenAI 的朋友就提及过 DeepSeek 04:59 R1 的“惊喜”来自:1.开源 2.跳过监督学习的强化学习 3.成本优势 08:03 这对 Scaling Law 是好消息:可免除大量标注数据,结合更多合成数据,让模型自我“反思” 12:27 一直相信开源的力量,开源更利好初创生态 15:30 DeepSeek 改变大家对中国模型的印象:工程优化外,底层架构也有创新。 16:46 AMD 宣布与 DeepSeek 合作,但这也不是利空英伟达,因为DeepSeek 等成果会降低更多行业使用大模型的成本门槛 19:55 Meta 短期有公关舆论压力,长期受益开源繁荣 23:06 DeepSeek V3 557 万美元训练费用,只算了 GPU hours 25:29 OpenAI 的秘密武器?是否低估了开源与闭源的差距? 28:09 X.ai 的特别优势:有 3D 产业数据(Tesla、SpaceX 的生产、产线数据等) 30:32 DeepSeek 的“诗意输出” :模型有不同“性格”,不同语言也可能带来不同“思维方式” 33:12 2025 年 AI 升级方向:垂直小模型、AI 进入边缘设备、架构创新 - 推理模型带来的 Agent 机会 40:08 试用 OpenAI Operator,目前还很慢,会编造信息,但前景美好;Salesforce、微软等大公司在布局行业 Agent。 43:50 Sam Altman 称很快会让 ChatGPT Plus 会员(20 美元/月订阅)用上 Operator,这话得“打折”听。 45:25 美国 B 端客户对准确性和专业度要求高,对当前 Operator 的形态接受度低,更希望获得专业、精准产品。 46:50 Operator 与传统 RPA(流程自动化)的区别:交互革新。 49:36 医疗、金融、保险、太空科技领域都有 Agent 应用机会。 53:33 Agent 隐私问题——一个实例:人们更喜欢向机器/AI倾诉疾病困扰。 56:15 AI Native 的一代:一出生就和 AI 玩具聊天的孩子们 56:33 美国基于开源基座模型+第三方 infra 服务+应用,生态活跃;而国内投资人有时担忧只做一个环节的公司太轻,易被巨头挤压。 01:03:04 硅谷创投圈的热闹,每周有新东西,幸福感高,竞争压力也大。 - 除了 AI 01:06:23 科技和生命科学结合(Bio Tech)& 太空科技(Space Tech) 01:10:15 美国创新核心在硅谷,波士顿、纽约、奥斯汀、洛杉矶也在崛起,如洛杉矶形成了 Space Tech 聚集地。 01:13:40 2025 年充满变数,期待更好保护创新生态,防止技术和资源被大企业垄断。 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 相关链接: OpenAI 来了!与硅基袁进辉聊 o1 新范式和开发者生态 DeepSeek 爆火引发系列连锁反应,Meta 建立 4 个小组研究 DeepSeek 剪辑制作:阿鲸Hval 本期主播:小红书 @曼祺_火柴Q,即刻 @曼祺_火柴Q 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章: 封面:AI 生成的数字巨鲸。
更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。 头图是 Dota 2019 国际邀请赛决赛(TI9)中,OG 战队的 Ana 使用 IO(小精灵,图中球形发光体)的经典作战,OG 在 TI9 中夺冠。为什么用这个图,播客里有答案~ 经过 “一切在加速” 的 2024 年,围绕中国大模型创业的讨论,从 “谁又融资了?” 变成 “谁会第一个倒下?” 行业分化时刻,我们访谈了中国大模型六小龙之一,估值已超 30 亿美元的 MiniMax 创始人兼 CEO 闫俊杰,聊了 MiniMax 的新技术目标,他们刚刚发布的首个开源模型系列 MiniMax-01 ,去年一年公司的变化和人员调整,以及闫俊杰作为一个“练习时长 3 年”的“新人 CEO”的自我复盘。 10 个月前,我们就访谈过一次闫俊杰。那次他提了很多字节;这次再聊,明显感到他主动提字节少了,提 Anthropic 多了。这与行业风向形成微妙的反差。 在他更在意字节的 2024 年 3 月,大模型创业最是烈火烹油。而现在,越来越多人开始讨论大厂对创业的压力,MiniMax 本来是看起来相对 “安全”:它的 AI 社区产品 Talkie 的最新月活用户数已超过 Character.ai,成为同类产品全球第一;其在中国的 AI 社区产品 “星野”,用户数、使用时长和留存率也都是第一,高于字节旗下的同类产品。 闫俊杰却自己推翻了这些优势,在他现在的认知里,用户数等指标并非 AI 竞争的核心,他说: - 千万别套用移动互联网的逻辑来做 AI。 移动互联网的逻辑是:用户越多,反馈越多,推荐算法越聪明。而闫俊杰认为,AI 大模型和产品的真实关系是: - “更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。” 在这个认知更加明确后,闫俊杰说他做出了取舍,现在 MiniMax 最重要的目标不是增长,也不是收入,是 “加速技术迭代”。 不到一年的两次访谈,我们从聊移动互联网到聊跳出移动互联网的逻辑,从讲 2024 年的目标到闫俊杰复盘当时定目标的逻辑就不太对——AI 行业和其中的人都在快速变化与迭代。 时间线跳转: ·聊 MiniMax-01 新模型系列:为什么开源? 02:12 为什么开源——加速技术迭代 & 加强技术品牌 08:22 行业误区:认为更好的智能水平要依赖更多的用户;其实不然 13:01 想清楚这个逻辑后:模型要追求不断提高上限,而产品就是产品 15:11 明确 MiniMax 是一家技术驱动的公司 ·聊对技术的态度:“一年前最喜欢说信仰的人,信仰都兑现了吗?” 18:01 “随热点而动?”这是对我们的误解 20:13 现在没人能定义什么是 AGI,只能定义智能水平会不断进步 22:00 作为创业者,不是说 Scaling Law 撞墙了我就放弃了,而是努力找方法延续它 23:59 一年前最喜欢说信仰的人,信仰都兑现了吗? ·聊 Agent:long-context 很重要,探索 coding 之外的 Agent 场景 25:31 Agent 能处理复杂任务,复杂任务指在专业领域达到专业人士水平 27:51 Agent 需要模型架构和能力的提升;MiniMax-01 做到了第一点 29:08 01 改传统 Transformer 里的非线性注意机制为线性注意力机制,提升了处理 long-context 的能力,这对单 Agent 交互质量,和多 Agent 通讯都很重要 35:07 为什么没发 o1 方向模型? 39:40 多模态能力在 OpenAI L1-L5 的 AGI 路线图里很重要 41:04 AI 编程助手 Cursor 的成功并不基于 o 方向的模型 41:51 蒸馏 o1 数据复现 o1,没那么难 44:09 编程之外另一 Agent 落地场景:信息的获取 51:09 中美模型的一个区别,前者缺少内部 benchmark 55:19 MiniMax 的技术团队特点:模型、Infra 和工程的综合能力强;客观、扁平、灵活 ·聊模应一体:市场不是有 A,就不能有 B 01:01:38 模型、应用一起做,还有必要吗? 01:03:59 即使更晚创业,也不会做只做应用的公司,因为想做基于未来技术的产品 01:04:44 海螺文本的失利——没有坚持技术驱动 01:06:48 Talkie、星野的暂时领先——因为更懂用户 01:07:34 做技术的人大部分觉得自己很牛,但我不是这么认知世界的 ·聊竞争:不要区分大厂和创业公司 01:07:56 不用把创业公司单独当一类公司 01:09:22 DeepSeek 也很纯粹;智谱第一个有 AI 路线图 01:09:59 MiniMax 的路线图?——逃出生天,下一步最重要 01:11:19 一年来大模型竞争最大的变化:更多人意识到这和移动互联网是两件事 01:12:29 没和字节谈过被收购,从来没想过把公司卖一个什么价钱 01:15:02 24 年没完成年初目标,定目标的逻辑就不太对 01:16:28 大厂投入和竞争激烈程度都在预料之内 01:18:46 AI 产品该看什么指标? 01:20:25 大公司之外,更大的“危险”还是来自自己的认知 ·聊团队和自己:放下 ego,深度思考 01:22:49 不要假定团队没有流失,流失才是正常的 01:23:24 MiniMax 需要的两种人 01:25:48 确定研发优先级需要做取舍,不见得每个取舍都对,纠错很重要 01:26:56 CEO 决策什么不决策什么不重要,重要的是组织有共同决策标准 01:29:48 让所有人都觉得公司被管得很好,这不是一个目标 01:30:28 打造 AI 组织的难点:持续吸引更好的人 01:31:17 半年多前焦虑,现在不了,因为已做出取舍,以技术迭代为最大目标 01:32:08 去年反思最多的问题——认知能力为何不能提升得更快? 01:32:16 放下自我,思考得更深入 01:34:29 为什么一直被叫 IO? 01:36:38 25 年对自己的期待:不断提高技术水平 相关链接: 《晚点对话 MiniMax 闫俊杰:创业没有天选之子》2025 年 1 月 《对话 MiniMax 闫俊杰:AGI 不是大杀器,是普通人每天用的产品》2024 年 3 月 MiniMax-01 开源系列模型技术博客 登场人物: 嘉宾:闫俊杰,MiniMax 创始人兼 CEO 主播:程曼祺,《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q 即刻 @曼祺_火柴Q 剪辑:甜食 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章
「不再追求 AGI,他第一个讲了出来」 上周初开始,市场陆续出现有关零一万物的新调整传闻,关键词包括:“放弃预训练,资金链紧张、被阿里收购……”传闻出现的第二天,我们在零一万物办公地,中关村鼎好大厦,采访了李开复。 他解释了实际发生的变化:零一万物已经和阿里云成立了 “产业大模型联合实验室”,零一万物的大部分训练和 AI Infra 团队会加入这个实验室,成为阿里的员工,侧重超大模型研发。零一自己接下来会聚焦做更快、更便宜、更小,更能支持普惠应用的模型,同时自己做应用。 在李开复的描述里,超大模型和更快、更便宜、更小的模型的关系类似于“老师和学生”,超大模型可以通过标注结果和生成更多合成数据的方式帮更小的模型提升性能。 去年 5 月,我们也访谈过一次李开复,当时的话题是从中国“最年长的 AI 大模型创业者”开始的,在 2023 年创立零一万物时,李开复已经 62 岁。 和他行业地位还有人生阶段相似的人,更多会选择支持一个公司,而李开复这次是自己当 CEO,自己跳入了这场大模型的混战。 关于零一的新选择,有人认为是理性、务实,有人认为是收缩乃至“认输”。不管如何,在最新传闻后,李开复快速对外说明事实和阐释想法的姿态,展现了 CEO 的责任。当公司出现调整,CEO 是需要对内对外说明情况的人。 这次我又问了去年问过李开复的一个问题:功成名就时再来创业,会不会有心理包袱? 他的回答还是和上次相似。1983 年,李开复开始在卡耐基梅隆读计算机博士,当时他在研究计划里写:“AI 是人类认识并理解自己的最后一里路,我希望加入到这个全新绽放、充满前景的未来科学领域。” 李开复认为,这是他等了四十多年终于等到的 AI 时代,如果自己没有试一把,才是一个终身遗憾。 我们访谈李开复的两篇文字报道,我也贴在了 shownotes 的“相关链接”部分,感兴趣的听友可以阅读。 时间线跳转: 回应零一万物调整:“不会停止预训练,但不再追逐超大模型” 02:30 零一与阿里云成立“产业大模型联合实验室”,零一部分团队并入阿里 06:01 当开源追上闭源,任何公司没必要执着于自己预训练,但这件事现在还没发生 08:16 零一没有寻求过被收购 Scaling Law 在变慢;商业化灵魂拷问时刻已经到来 12:08 2024 年 5 月后,零一就做出抉择:聚焦更快、更便宜的模型;想做最大、最棒、最牛的模型,代价非常高,绝对不是一个初创公司可以做的事。 16:57 超大模型的作用是当 Teacher Model,提升较小模型的能力,Anthropic 和 OpenAI 都有类似实践 22:22 大模型时代,从技术竞争到商业落地拷问,一切在加快 25:13 不打打不赢的仗,不做看不到回报的大量投入 27:25 3 种 ToB 订单可以做:帮客户赚钱的;与行业客户紧密合作的;方案可复制性高的 “2025 年零一会有数亿收入”,怎么来? 33:32 2024 年获得超 1 亿元人民币实际收入 35:03 2025 年会和适合大模型的行业公司建合资公司,结合行业数据、Know-how 和零一的技术 中国大模型创业公司会全军覆没吗?——“没有任何概率” 38:26 谈团队变化:有人禁不住诱惑,有人想追寻超大模型 40:19 中国大模型创业公司全军覆没有多大概率?——“没有任何概率”,因为 AI-first 的应用会足够颠覆 44:01 AI-first 应用的特性:自然语言交互;有通用推理、理解能力;无 AI 不成立 45:11 中国大模型创业公司在应用和落地上会有更多优势,这是互联网和移动互联网验证过的逻辑。 “等了 40 多年,不试才是遗憾” 47:28 不后悔自己当 CEO,一线创业 49:43 2025 年,应用会爆发,零一会在垂直细分行业找到有大价值的 PMF 51:19 工作是工业革命留下的魔咒,如果有了 Super Agent,我会花更多时间和爱的人在一起,这是 AI 取代不了的。 52:45 “每一位都是勇士,我们应该彼此鼓励” 53:32 2025 年的新年愿望 相关链接: 《晚点对话李开复丨他第一个讲了出来,不再追求 AGI》(25.01) 《对话李开复:这次大模型创业,我十年都不会变现》(24.05) 登场人物: 嘉宾:李开复,零一万物创始人兼 CEO。 主播:程曼祺,《晚点 LatePost》科技组负责人。小红书 @曼祺_火柴Q 即刻 @曼祺_火柴Q 剪辑:甜食 ☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆ 欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。 这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。 请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。 关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章
中国产品出海正在进入一个新时代:从卷低价、卷规格,到建品牌,讲故事。泡泡玛特希望在全球讲的是 IP 界的唱片公司的故事;名创优品希望借助每个大火的 IP,让自己的产品提供更多功用性之外的价值;喜茶则继续用联名,在全球范围内扩大自己的品牌影响力。 以往中国商品靠精益生产、快速周转,赚的是薄利多销的钱,今天新一代工厂管理者接手后,他们希望能从头搭建品牌故事、建立品牌影响力,利润空间更高、更具品牌忠诚度的海外市场就是他们心中的应许之地。但如何在海外从 0 到 1 搭建起一个品牌? 我请来了一位国际日化集团的社交电商负责人 Eric,这一集团下不少化妆品品牌女生们都耳熟能详, Eric 过去 10 年都在集团内负责整个亚太区域的电商业务,做过运营、投放、数据分析,Eric 很清楚一个品牌如何从头搭建、长大。 过去一年他开始转向出海,负责东南亚、日本、美国三个市场的 TikTok 电商渠道,中间踩了不少坑,也积累了不少经验,在本期播客中,我们将能够听到他的真诚分享。 东南亚市场 06:54 在东南亚,如何从0到1搭建一个海外品牌? 23:08 在东南亚做了一年 TikTok 电商,我踩了哪些坑 31:53 东南亚几个电商渠道,如何分配预算? 39:26 东南亚绝对不会出现李佳琦,因为没人会那么努力 日本市场 49:02 一个商品详情页要改两周,日本电商市场太慢 53:36 面对低效,破局的点是找到搭配默契的中国人团队 北美市场 01:00:46 品牌要在 TikTok 北美做起来,可能会面临哪些挑战? 01:06:43 雅诗兰黛等全球知名品牌是怎么做 TikTok 的? 01:08:12 为什么美国的 TikTok 很难像中国的抖音一样快速成长起来? 01:14:03 外资进入中国,有什么经验可借鉴? 01:18:41 出海过来人想说,你得考虑这三个问题 剪辑:甜食 登场人物 Eric,知名国际日化集团全球社交电商负责人,即刻 ID:艾瑞克丁 Eric 陈晶 《晚点 LatePost》记者,关注出海(Wechat:tiema233) 封面图:Eric 从印尼飞往越南的路上
「没进展的 5 年,也是内部技术变革的 5 年。」 两年多前,我们在 Robotaxi(无人出租车)的信心冰点报道过小马智行。那时的标题是:“市场不相信自动驾驶了,但他们还信”。 转眼到 2024 年:百度萝卜快跑 4 月在武汉引起热潮,Waymo 无人车队 8 月在旧金山的日均总单量超过了当地出租车(未计算网约车);年底,又有文远知行、小马智行两家中国头部 Robotaxi 公司先后登录美股。 在特斯拉和 Waymo 的路线对比中,强弱之势也正微妙变化。10 月,马斯克的 Robotaxi 发布会后,Uber 股价大涨 10%;而 1 个月后,当 Waymo 传出进入迈阿密,Uber 股价则跳水 10%。 谁更有希望代表 L4 真的改变人类司机出行网络?华尔街在用钱表态。 这个时刻,我们再次访谈了刚刚完成 IPO 的小马智行 CTO 楼天城。 他完整描述了小马过去 5 年 L4 技术变革:从 Learning by Watching 到 Learning by Practicing。 前者是学习人类驾驶行为的模仿学习,是如今 L2+ 普遍选择的路;后者的关键则是构造一个训练车端模型的虚拟环境,让系统可以自己进化,楼天城称之为“世界模型”。 楼天城分享了与之相关的多个技术洞察: ·世界模型本质不是一个模型,世界模型是车端模型的 factory(工厂),自动驾驶技术的真正差别在于 factory 的精度,而非车载模型的能力。 ·Learning by Watching 最多是像人,但像人永远无法做到 L4。 ·越是优秀的人类司机,学起来越是反向优化。 ·MPI 为 1000 公里的产品不存在,因为它反人性。 过去 5 年,外界看不到 L4 公司的明显进展:MPCI(接管里程)仍在提升,但只要无人化车辆没有大量上路,人们就没有直观感受,技术指标只是冰冷的数字。 但在楼天城的叙述里,外界见不到进展的 5 年,也正是关术变革发生的关键时期。 这些变化,使 Robotaxi 今年得以启动百台至千台级别的规模化运营,也给行业带来了高开低走,又逐渐反弹的波折命运。这不仅考验从业者的理性技术判断,更考验感性的决心,和说服团队一起相信的能力。 “我一直说,大部分人不能坚持不是因为太苦,而是因为受到了诱惑。”楼天城说,过去 8 年,他没有遇到过能和自动驾驶相提并论的诱惑,大模型也不算。 时间线跳转: ·5 年前:瓶颈 →绝望→寻找新路 02:53 2019 年后,L4 的进展难再被感知,规模化无人运营带来了市场水温变化。 11:13 这 5 年:从 Learning by Watching 到 Learning by Practicing 12:30 前者是模仿学习,没法学习驾驶员怎么想 14:27 世界上不存在一个 MPI 为 1000 公里的 L2 产品,因为反人性 16:13 模仿学习的另一个问题是人的双标,AI 司机所以像人依然不满足需求。 19:07 学习优秀司机也不行,甚至是反优化 19:45 这本质是因为模仿学习是开环训练,“我绝望了,才发现闭环是出路” ·搭建“世界模型” 22:03 Learning by Practicing 的闭环训练,是强化学习思路 23:46 学了棋谱再强化(AlphaGo),甚至不如直接从 0 开始强化(AlphaZero) 24:28 感性上的挑战:之前的路线做了 3 年还不错,换路线后前两年追得痛苦 26:19 5 年前开始转向以生成数据为重,这也是世界模型的任务之一 30:36 在虚拟环境里学习,本质是“向未来的自己学习” 32:21 世界模型是车端模型的工厂,自动驾驶进化的关键是工厂的精度,而不是车端模型本身 34:43 Learning by Watching,数据和算力是关键;Learning by Practicing,世界模型的精度是关键 ·认为 L2 会覆盖 L4,是还没有越过分界点 35:03 没有谁做了错误选择,L2+和 L4的优化方向不同 36:18 L2 使用 Learning by Watching 没问题,也符合 L2+的规模效应特性 38:51 L2 不能覆盖 L4,L4 也不能取代 L2,真正越过分界点后会发现这是两件事 42:20 小马世界模型的构成:1.数据生成器 2.驾驶评估体系 3.高真实性的仿真 4.数据挖掘引擎 45:39 魔鬼在细节,世界模型的细粒度指标是核心竞争力 53:04 世界模型的终极状态:车不再因错误发生事故 54:48 千台 Robotaxi 开始有毛利,净利和扩张则是策略上的 trade off 56:15 不会因为它是特斯拉,Learning by Watching 就能 work 01:03:11 车辆运营维护与合作伙伴一起做;远程遥控人员的比例未来可到 1 比 30 ·大部分是因为结果的正确,倒推方法的正确 01:10:20 大部分人不能坚持,不是因为苦,而是因为受到了其它诱惑 01:11:08 大模型现在很 fancy,一旦走到应用阶段,会经历自动驾驶经历的所有事 01:11:35 MiniMax 的产品是 L4,CoPilot 是 L2 01:14:09 度过行业起伏:外界看不到进展时,内部也要有合理且可感的里程碑 01:17:30 越来越相信,世界是模拟的 01:19:40 大部分人是因为结果正确,倒推成功者方法正确,但正因如此,不该盲目套用别人的方法 01:24:00 过早追求商业化,和一定要追求最有价值的商业化,都是极端。“创业前我没想过二者的平衡,创业中我肯定偏执过。” 01:25:57 下一步的关键是合理成本下,扩大车队规模 相关链接: 《市场不相信自动驾驶了,但他们还信》 剪辑:甜食 登场人物: 楼天城,小马智行联合创始人兼 CTO。 程曼祺,《晚点 LatePost》科技报道负责人。
汉洋和工业设计师志斌一起聊了聊到底啥是工业设计?并且随机点评了一些当下比较火的产品。 本期节目我们聊到了: * 简单一句话 20 来个字概括工业设计 * 工业设计这门课本科都在学啥 * 哪个最不起眼的东西实际有很高的工业设计含金量? * 工业设计和其他设计的区别和联系 * 工业设计师是一个工业产品的产品经理么 * 工业设计在一个产品线中所处的环节是什么? * 工资最高和最少的工业设计师分别在设计什么(或者说在解决什么问题) * 比如说你看到一台新发布的手机,你会关注什么? * 顺着聊聊,如何看待 iPhone 的设计? * 不同产品之间你关注的设计点一样吗?比如车和手机 * 聊聊理想 Mega * 那些细节是你一看就难的,但普通人都感觉习以为常的? * 反过来呢?大家认为难但实际上很简单的呢? * 没做过工业生产的老板,会在设计上踩什么坑? * 我们拿到一台新设备,该怎么看他的设计好坏? 相关链接: 志斌的播客《荒野楼阁 WildloG》(苹果) 《荒野楼阁 WildloG》(小宇宙) 预言在应验:五年前所讨论的未来人机交互的新范式_6.ylo 志斌的 blog 柳宗悦 登场人物: 志斌:一个家里有动物园的设计师奶爸 汉洋:设计溜达动线中 后期:甜食 封面:志斌在拍照
具体信息可以点击这里查看。 发邮件到 why at gailiuzi.xyz 就可以。
「稿件操作幕后,文字之外的更多想法和碎碎念。」 本期的主播是曼祺,很高兴和「十字路口 Crossing」串台,一起来聊《晚点》11 月底发布的一篇文章《中国大模型生存战:巨头围剿,创业难熬》的操作故事和感受,这刚好也是一次大模型创业的年底“非系统”复盘。 这段时间,我感受了非常不同的 AI 面向:先是参加了十字路口和 Abotify 一起组织的一场 AI 创业和开发线下活动(1000 天后的 AI 世界),本来 150 人的活动,有 700 多人报名,最后我目测现场涌入了 200 多人;热火朝天和甚至“乱哄哄”的现场交流与碰撞,是如今的 AI 拼图之一。 而这前后,我们为准备大模型稿件做采访、数据整理和撰文时,又看到了拼图的另一面:字节等大公司来势汹汹,后来居上,它的大模型进展在 23 年下半年还被群嘲,如今已不可小觑——“中国的大象真的会跳舞”。最头部的一批创业公司,尤其是既做模型,又做应用的六小龙无不感受到这只“大象”的压力。 所以我们后来在年底的大模型创业生态稿件中,选择了这样一个主线:“巨头围剿,创业难熬”。本期就是和 「十字路口」一起聊聊这篇稿件的操作,以及更多报道之外的言外之意和“前排感受”。 「十字路口」的两位主播带来了和不同的视角:Koji (杨远骋),联合创办了街旁、新世相和躺岛,他自己现在也在做 AI 应用,是一位活跃的 AI 开发者,对各模型性能区别和 AI 应用的快速变化有一手观察;Ronghui,目前在一家专注科技投资的风险投资机构工作,之前是第一财经周刊驻硅谷的记者,她所在的机构也在积极投资 AI 项目。 时间线传送: Part 1 大模型创业变局:核心变量仍是技术进化的方向与速度 02:33 市场的核心分歧:技术进化的方向与速度? 04:35 if 进化快:也许有创业者能有一定的认知优势 & 模应一体也会更合理 08:16 if 进化慢:产品能力变得更重要 & 大模型头部公司融资不顺 10:00 神奇的 DeepSeek:不是大厂,但资源够多 11:55 不管进化快慢,开源对闭源都有压力 14:44 三种反馈:共鸣、中外关注差异、具体数据讨论 20:23 马云训话阿里投资部的段子背后 21:31 不是创业公司不顺利,是大厂衬托下显得不顺利 23:49 六小龙现状:Kimi 专注做 Kimi,零一不是没产品,智谱 AutoGLM 与手机合作 31:15 Kimi VS MiniMax:前者重注生产力,后者推出更多适应性产品;生产力是大公司的必争之地,MiniMax 星野、Talkie 在细分市场暂时比大厂产品更强 35:50 闫俊杰说追求 Intelligence with everyone;杨植麟说追求智能极限 44:34 大模型创业,一年花费到底多少?投资人的算法 VS OpenAI 花费 47:33 大模型创业公司不是面临一个挑战,而是一组纠缠的挑战 48:40 今日头条上线 1 年多时,就有 1000 万日活 Part 2 字节如何后来居上:招人才、定策略、建组织 52:13 字节在大模型上不如中国其它大公司,百度才是最早的 56:41 去年到今年,直接的变化:一号位亲自招人,确定自己做、不再对外投资,Flow 的成立 01:01:15 字节做 AI 的外部变量:海外的地缘压力 01:02:19 阿里的新战略:AI 驱动、公共云优先;未来的新看点:阿里云 VS 火山云 01:07:02 腾讯,可以后发制人 01:08:40 百度的组织张力,萝卜快跑反而成了百度今年的 AI 亮点 Part 3 应用在蓬勃生长,创业者没空悲观 01:11:45 十字路口xAbotify 线下活动,100 多名额,700 多人报名 01:12:44 超级个人+小团队的蓬勃发展 01:15:28 应用没有爆发?还是预期太高? 01:16:20 好用 AI 应用的例子:Recraft、Cursor 01:20:00 创始人没空悲观,他们一定在寻找出路 01:21:24 “战争不是由拼搏组成的,而是由等待和煎熬组成的。” 相关链接: 我们办了一场全程高能量的 AI 创业者聚会 中国大模型生存战:巨头围剿,创业难熬 大厂大模型:久违的一把手工程 晚点独家丨月之暗面探索 o1,跟字节抢来华为刘征瀛 晚点独家丨大模型六小龙第一起分拆:零一万物计划独立 AI 游戏公司 晚点独家丨月之暗面收缩出海,相关产品负责人离职创业 登场人物: Koji 街旁、新世相、躺岛联创,@即刻 杨远骋Koji Ronghui 美元 VC,前《一财》硅谷记者,@即刻 Ronghui 程曼祺 晚点科技报道负责人,@即刻:曼祺_火柴Q 剪辑:十字路口团队 播客封面:《星球大战外传:侠盗一号》 关注《晚点 LatePost》公众号,阅读更多商业、科技文章:
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧