Album

跨国串门儿计划

克隆翻译精品英文科技播客

yikai- 佚名
6.2万 订阅 576 集 2周前
播客简介
这是一档使用 AI 技术来将英文播客翻译为中文播客的节目~ 在翻译的同时,也能保留原有声线,用中文听懂外语播客!
节目
#572.AI越强大,其经济占比反而可能越小

#572.AI越强大,其经济占比反而可能越小

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:Dwarkesh Patel 播客《The better AI gets, the smaller its share of the economy might get – Alex Imas and Phil Trammell》 本期节目是一场关于 AI、经济增长、就业、财富分配与未来稀缺性的深度推演。主持人 Dwarkesh Patel 对谈两位研究 AI 与经济的学者:Alex Imas 和 Phil Trammell。他们讨论了一个反直觉的问题:AI 越强,它在经济中直接拿走的份额,反而可能越小吗? 对话从“未来什么会变得稀缺”开始:当机器能够完成绝大多数生产任务,人类是否还会因为“人类参与本身”而保留价值?医生、教师、治疗师、艺术家、咖啡师、芭蕾舞演员,这些工作里到底哪些部分可以被自动化,哪些部分因为关系、信任、共情和人类连接而仍然值钱? 节目也深入拆解了劳动力份额与资本份额的长期稳定之谜。工业革命以来,大量工作被机器替代,但劳动收入占比却长期保持在很高水平。AI 会打破这个历史规律吗?两位嘉宾提醒,经济学家在预测未来时最大的限制是:我们几乎没有足够的数据。我们不知道消费者真正会为什么付费,也不知道哪些新工作、新商品、新需求会被创造出来。 中段讨论尤其现实:AI 是否已经造成白领大规模失业?“白领末日”是否有数据支持?如果 AI 能替代很多工作,却没有创造出足够的新财富,会不会出现一个最糟糕的“混乱中间阶段”?嘉宾们认为,这种情景并非不可能,但需要很多条件同时成立;而如果 AI 真正强到能大规模替代白领工作,它也很可能同时显著扩大生产前沿,让再分配问题变成核心。 后半段则进入政策与全球分配:AGI 创造的财富该通过 UBI、负所得税、全民基本资本,还是税收购买股票的方式分配?发展中国家如果不生产模型、不生产芯片、不掌握关键供应链,是否会被甩在后面?答案可能取决于 AI 更像电力,还是更像社交媒体:如果像电力,收益会广泛扩散;如果像社交媒体,租金可能集中在少数平台和资本所有者手里。 这期节目不是给出一个简单预测,而是搭建了一套理解 AI 经济未来的分析框架:未来的关键,不只是 AI 能不能替代人类,而是需求弹性、关系型价值、资本回报、收益集中度、开源扩散、政治再分配和全球资产配置会如何共同作用。 👨‍⚕️ 本期嘉宾 Alex Imas,Google DeepMind 的 AGI economics 负责人,芝加哥大学经济学教授。他的研究关注行为经济学、劳动力市场、AI 对经济结构的影响,以及人类偏好、关系型价值和未来自动化之间的关系。 Phil Trammell,Epoch 的 economics 负责人,斯坦福研究学者。他长期研究长期主义经济学、AI 时代的增长模型、资本积累、自动化、利率、财富分配以及未来技术对宏观经济的影响。 ⏱️ 时间戳 00:00 开场 & 播客简介 AI 时代,什么会变得稀缺 01:38 经济学能告诉我们什么:工资、劳动份额、税收与再分配 02:19 关系型部门:为什么“人类参与”本身可能成为价值 04:04 预测未来为什么这么难:经济学家没有足够数据 08:21 劳动力份额与资本份额:自动化会让工资占比下降吗 10:17 供应链里的劳动:为什么过去几乎没有东西被“完全自动化” 11:33 医生不是一个任务:工作会被拆成可自动化与不可自动化部分 13:21 不存在的未来商品:为什么今天的数据无法预测明天的需求 从蒙古歌手到晶体管:需求如何决定经济份额 14:09 蒙古经济的类比:为什么未来商品种类会改变稀缺性 15:15 机器人很多,人类很少,钱就一定流向机器人吗 16:21 摩尔定律的反面:计算越便宜,边际价值可能越低 16:50 H100 为什么更贵:AI 让 compute 出现新的高价值用途 17:14 对 compute 的需求会不会永远无法满足 18:03 人类创作为什么更值钱:连接感、共情与关系型偏好 白领失业与“混乱中间阶段” 19:20 AI 起飞太慢,反而更糟吗:自动化、失业与补偿难题 20:37 Phil 的判断:最坏窗口可能很窄 21:26 政治经济学缺口:失业率只上升几个百分点也会改变政治 22:58 如果只裁掉一部分白领,省下的钱够不够做 UBI 24:07 要出现“没有足够财富可分配”的情景,需要哪些苛刻条件 25:02 负所得税、UBI 与全民基本资本:再分配工具的利弊 27:35 税怎么收、钱怎么发:消费税、股票篮子与全民持股 29:00 AI 已经导致大规模白领失业了吗:目前证据并不明显 31:05 自动化互补任务:为什么 AI 也可能增加某些岗位需求 32:13 需求弹性与 Jevons 悖论:便宜不等于总支出一定增加 34:16 AI 会导致经济衰退吗:要让丰裕带来负增长非常难 为什么 AI 没有更快替代所有工作 36:43 多模态模型与世界模型:从 Gemini Omni 看未来 AI 能力 37:59 Oring 模型:为什么一个环节不可靠会毁掉整个产品 39:27 当 AI 足够强,人类也可能难以接入生产流程 40:10 律师、会计为何还没被替代:可靠性、责任与监管摩擦 40:59 人类制度会不会只是过渡性安排:执照、法官、立法与 AI 政治系统 非人类偏好与资本加速 41:32 未来 AI 或公司会不会形成自己的偏好 42:51 人类还会偏好人类互动吗:AI therapist 与道德情绪 44:52 富人财富的真实形态:消费还是让资本继续复利 45:43 更高储蓄率的实体,长期会不会拥有大部分财富 47:13 永生、资本回报率与消费偏好如何改变未来经济 48:56 资本品价格下降:为什么高增长不一定等于高真实回报 50:53 品类增加与贪婪资本家:为什么机器人需求可能不断扩张 52:14 富豪、信托与财富积累:少数优化器是否足以主导经济 53:44 从政治影响力到天文浪费:为什么有人会永远想要更多资本 55:14 Von Neumann probe:极端优化器如何挑战传统 GDP 与劳动份额 发展中国家如何分享 AGI 红利 56:50 印度、尼日利亚怎么办:不在 AI 供应链里的国家风险 57:38 储蓄、利率与低起点国家:发展中国家的“混乱中间阶段” 59:03 主权财富基金与资产配置:现在就该买入关键供应链吗 01:00:39 为什么土地税不够:普通人的资产未必是 AI 时代互补资本 01:01:18 AI 更像电力还是社交媒体:收益扩散还是租金集中 01:03:03 开源模型的关键作用:乌干达能不能分享到 AGI 回报 01:03:59 两种情景:收益高度集中,或 AGI 像电力一样普及 01:04:23 指数化投资 vs 再培训:发展中国家不能只押一个策略 01:05:10 AI 是否带来跨越式发展:移动银行式 leapfrog 的可能性 01:05:43 指数化到底有多难:私营 AI 公司、上市与普通投资者可及性 AI 商品化、安全与叙事 01:06:44 为什么 AI 实验室商品化可能更利于广泛繁荣 01:07:06 “世界上没有反电力的人”:AI 叙事为什么如此负面 01:07:45 商品化的安全代价:竞争压力与前沿模型扩散风险 01:08:31 收尾:集中实验室、政府权力与社会分享 AI 剩余收益 🌟 精彩内容 💡 “我们没有数据”:AI 经济预测最大的盲区 Alex Imas 强调,面对 AI 对就业、工资和劳动份额的影响,经济学家不能只靠个人直觉下结论。历史上从 David Ricardo 到今天,预测自动化对就业的影响一直极其困难。真正缺失的是消费者需求、支付意愿、任务变化、工作创造与消失的系统性数据。 “如果这场对话里你只记住我说的一件事,那就是:我们没有数据。” 🤝 关系型部门:人类不是马,人类参与本身可能有价值 节目提出一个关键概念:关系型部门。某些产品和服务的价值,不只来自最终结果,也来自过程中有人类参与。比如人类医生、人类治疗师、人类艺术家、人类老师。实验显示,同一张艺术版画,如果被认为是人创作的,人们愿意支付的价格显著高于 AI 版本。 “人不能像马那样,只是产出的一个投入。人本身必须给产出带来价值。” 📉 AI 会导致负增长吗?非常难 主持人提出一种流行情景:AI 替代白领,工资收入消失,需求下降,经济衰退。Alex 认为,失业和转岗冲击确实可能发生,但要让 AI 带来的丰裕最终造成负经济增长,需要非常不现实的条件:资本所有者完全消费饱和、不投资、不扩大数据中心和生产前沿。 “要让丰裕带来负的经济增长,这非常难。” 🧩 为什么 AI 没有更快替代律师、会计和程序员 节目用 Oring 模型解释:一份工作由多个环节组成,只要一个关键环节不可靠,整个产品就可能失败。即便 AI 能完成很多任务,如果可靠性、责任归属、监管背书和执照制度没有解决,企业仍然不敢完全替代人类。律师的价值,不只是写文件,而是承担责任和提供可信保证。 “你付钱请律师,买的就是那种保证:不,我的公司真的不会因此倒闭。” 💰 UBI 不是唯一方案:全民基本资本可能更关键 面对 AGI 创造的巨大财富,嘉宾讨论了 UBI、负所得税、财富税、消费税、全民基本资本等方案。Alex 担心,如果人们只能依赖政府发支票,那么谁掌权就变得极其重要;相比之下,如果每个人都拥有一篮子资本资产,政治风险可能更低。但问题在于,应该持有什么资产、能否准确跟踪 AGI 收益。 “如果是 universal basic capital,你有一份所有权,而且你对资本有财产权。” 🌍 发展中国家最重要的策略:尽可能接触 AGI 收益 对于印度、尼日利亚等不生产模型、不生产芯片、不掌握关键硬件供应链的国家,嘉宾认为,简单说“再培训”可能不够。更重要的是,它们如何通过主权财富基金、指数化投资或其他机制,持有能分享到 AI 财富增长的资产。当然,如果 AI 像电力一样扩散,普通指数也许足够;如果像社交媒体一样集中,问题会更严重。 “AI 到底会更像电力,还是更像社交媒体?” ⚡ 电力 vs 社交媒体:AI 财富会扩散还是集中 这是本期最关键的判断之一。如果 AI 像电力,虽然基础设施重要,但下游几乎所有行业都会受益,财富会扩散到整个经济。如果 AI 像社交媒体,平台可能捕获大部分租金,少数公司和股东会变得极其强大。开源模型是否能长期接近前沿模型,是决定这一点的重要变量。 “如果 AGI 更像电力,那你就又能买指数了。” 🗣️ AI 叙事为什么容易悲观 Alex 指出,AI 的正面叙事很难讲,因为人们更容易想象自己失去已有工作,而不是想象一个尚不存在的新好处。相比之下,反 AI 叙事更直观,也更容易传播。 “想象一个还不存在的好东西,比想象失去一个已经存在的东西要难得多。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

69分钟
1k+
2周前
#571. Demis Hassabis:普通人如何理解 AI 权力中心,巨头竞赛下的安全与科学理想

#571. Demis Hassabis:普通人如何理解 AI 权力中心,巨头竞赛下的安全与科学理想

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:Unsupervised Learning: With Jacob Effron《A Conversation With Demis Hassabis' Biographer》 本期节目里,主持人 Jacob Effron 对话 Sebastian Mallaby,后者是 Demis Hassabis 传记《The Infinity Machine》的作者。为了写这本书,Sebastian 与 DeepMind 联合创始人、Google DeepMind CEO Demis Hassabis 进行了三十多个小时的深度访谈。 这期节目不仅是在聊一本人物传记,更像是借 Demis 的人生和 DeepMind 的历史,重新审视过去十几年 AI 竞赛是如何形成的:为什么最初想避免竞争的 DeepMind,最后也不得不卷入全球 AI 军备竞赛?为什么 OpenAI 和 Sam Altman 曾被过早加冕为赢家,而 Demis 和 Google DeepMind 却长期被低估?为什么 DeepMind 一边拥有顶尖科学成果和 AlphaFold 这样的诺奖级突破,一边又在 ChatGPT 和 coding agent 等产品浪潮中显得慢半拍? 节目还深入聊到了许多 AI 圈关键人物之间的真实关系:Demis 与 Elon Musk 从相互欣赏到紧张对峙,Elon 曾试图阻止 DeepMind 卖给 Google;Demis 如何看待 Sam Altman;David Silver 为什么离开 DeepMind;以及 Dario、Anthropic、Google、OpenAI 这些实验室之间不同的组织气质、战略押注和人才吸引力。 如果你想理解今天 AI 竞赛背后真正的权力结构、科学理想、安全焦虑和人物性格,这期节目会是一扇非常好的窗口。 👨‍⚕️ 本期嘉宾 Sebastian Mallaby,《The Infinity Machine》的作者,知名财经与人物传记作家。他曾写作关于风险投资、金融与全球经济人物的多部作品。本书中,他通过与 Demis Hassabis 超过三十小时的深度访谈,以及对 DeepMind、Google 和 AI 生态中多位关键人物的采访,讲述了 Demis Hassabis 与 DeepMind 的故事。 ⏱️ 时间戳 00:00 开场 & 播客简介 AI 竞赛的起点 02:06 为什么写 Demis:三十多个小时访谈背后的 DeepMind 故事 03:36 AI 竞赛是否不可避免:强大技术注定吸引多个国家和实验室 04:19 “地堡里的唯一团队”:DeepMind 早期想避免竞赛的安全理想 05:53 SpaceX 安全峰会的反效果:共享进展如何刺激 OpenAI 的诞生 07:17 政府监管的可能性:AI 模型是否应该像药品一样接受事前审查 08:47 Demis 的乐观:为什么危机可能迫使政府采取行动 被低估的 Demis 与 Google DeepMind 10:06 最大误解:大众太快加冕 OpenAI,却低估了 Demis 和 Google 12:07 Google 的产品化困境:为什么 ChatGPT 和 Claude Code 都不是 DeepMind 做出来的 12:41 Demis 的知识背景:神经科学家如何影响 DeepMind 的“广撒网”路线 14:26 Google 的优势与代价:有钱、有算力、有耐心,但不一定能最早押中重点 DeepMind 与 Google 的复杂婚姻 15:29 Project Mario:DeepMind 曾秘密考虑从 Google 拆分 16:06 Reid Hoffman 的十亿美元承诺:拆分计划如何成为谈判筹码 18:12 创始人的天真:为什么 DeepMind 最后没有真正挥动拆分威胁 19:20 Demis 的后悔:AI for science 无悔,但错过 transformer 让他难以释怀 19:48 从 AlphaGo 到 AlphaFold:胜利十秒后就转向蛋白质折叠 21:47 Demis 的盲点:为什么他低估了语言模型通向智能的力量 巨头、创业公司与战略押注 23:22 风投创新能否战胜 hyperscaler:AI 时代资本与聚焦的拉扯 24:00 OpenAI 的商业模式压力:技术强,不代表一定能长期独立 25:09 Anthropic 的反事实:如果 coding model 晚爆发半年,故事可能完全不同 26:21 Demis 是否需要更公众化:回顾性叙事很强,前瞻性叙事不如 Sam 27:26 控制叙事的重要性:影响产品采用,也影响人才招聘 28:47 人才为什么离开 DeepMind:顶尖研究者更想加入“单点重注”的组织 29:57 Isomorphic 的独立化:让 AI for science 成为自己的核心赌注 30:11 Anthropic 的低流失率:强烈价值观如何带来高忠诚度 关键人物与关系网络 31:23 David Silver 的离开:强化学习信徒为什么想离开大组织创业 31:36 RL 与大模型路线之争:从经验中学习,还是从互联网数据中启动 34:05 为什么现在离开:强化学习重新流行,但组织押注仍不够集中 34:44 AI 实验室背后的少数掌舵者:个人关系如何影响行业走向 35:07 Demis 与 Elon:从 Founders Fund 场合相识,到 Elon 试图买下 DeepMind 35:29 “AI 会追你到火星”:Demis 如何说服 Elon 投资,又为何拒绝卖给他 38:21 Demis 如何看 Sam:科学家气质与硅谷融资高手之间的根本差异 AI 的伟人史观与精神追求 38:37 人物重要吗:竞赛动态不可避免,但领导者个性会改变路径 40:35 最改变作者看法的时刻:Demis 对科学奥秘近乎精神性的执着 41:48 AGI 的宗教意味:为什么追寻智能对很多人不只是技术项目 42:07 Demis 不愿谈什么:家庭、Google 内部冲突与 Mustafa Suleyman 离开 科学品味与未来可能 43:45 DeepMind 的真正启发:如何在前沿科学里判断什么时候该继续下注 45:00 AlphaFold 的关键转折:从“世界第一”到“真正解决问题” 46:37 被低估的 AI 英雄:Ilya Sutskever 与 David Silver 值得一部双人传记 47:11 Demis 会成为 Google CEO 吗:取决于他是否愿意牺牲科学时间 48:29 Sebastian 的写作体验:酒吧楼上三十小时对话如何改变一本传记的写法 🌟 精彩内容 💡 AI 竞赛几乎不可避免 Sebastian 认为,当一项技术拥有如此巨大的潜在力量时,不可能只有一个团队、一个国家或一个实验室去追求它。DeepMind 早期曾希望自己能成为那个在 AGI 边缘统一处理安全问题的团队,但现实证明,这种想法过于理想化。如今 Demis 已经转向另一种判断:AI 安全是集体行动问题,最终需要政府和国际合作介入。 “因为这项技术太有吸引力了,不可能只有一个团队对它感兴趣。” 🧠 被低估的 Demis Hassabis 节目中反复提到一个核心判断:公众太快把 OpenAI 和 Sam Altman 视为 AI 竞赛的最终赢家,却低估了 Demis Hassabis 和 Google DeepMind。Demis 早在 2010 年就创办 DeepMind,很多后来被 OpenAI 复制的 AI 实验室模式,最早都是由他开创的。Sebastian 认为,AI for science 这个方向在很长一段时间里几乎是 Demis 一个人真正坚持推动的。 “我觉得,人们太快就把 OpenAI 和 Altman 加冕为赢家了,同时低估了 Demis 这个人,也低估了 Google DeepMind 这家公司。” 🔬 DeepMind 的优势与短板:什么都想做 DeepMind 的一大特点是同时探索很多方向。Sebastian 认为,这与 Demis 的背景有关:他是神经科学 PhD,关心的是“智能到底是什么”这种宏大问题,因此很自然地倾向于广泛探索。Google 的资金、算力和人才让这种广撒网策略成为可能,但代价是,在 ChatGPT、coding agent 这样的产品化拐点上,DeepMind 往往不是第一个冲出来的玩家。 “只要有两条不同路线可以走,他们就会说,那我们两条都做。” 🧩 Project Mario:DeepMind 差点离开 Google 节目披露了 DeepMind 曾秘密考虑从 Google 拆分出去的 Project Mario。Reid Hoffman 曾承诺出资十亿美元支持拆分,Demis 试图用这一备用选项向 Google 争取更多安全监督权。但最终,他选择留在 Google:一方面不想陷入法律斗争,另一方面需要 Google 的巨大算力。这个选择后来帮助他推动 AlphaFold,并最终获得诺贝尔奖。 “我只想做科学。我不想被法律斗争分散注意力。我想要大量 compute 的访问权,所以我留下。” ⚖️ OpenAI、Anthropic 与 Google 的不同命运 Sebastian 认为,AI 竞赛也是风投支持的创业公司与 hyperscaler 巨头之间的竞争。Google 有近乎无限的现金与算力,可以承受落后一两年再追上;但创业公司更敢于做集中押注。OpenAI 押注 ChatGPT,Anthropic 押注 coding model,而 DeepMind 则往往同时推进许多方向。这种差异决定了它们在产品、人才和叙事上的不同表现。 🧲 公众叙事也是竞争力 Demis 擅长回顾性地讲述自己的故事,比如 AlphaGo 纪录片、《The Thinking Game》以及这本传记。但他不太像 Sam Altman 那样擅长在社交媒体上制造前瞻性叙事。Sebastian 指出,这会影响产品采用,也会影响人才招聘。AI 时代,谁控制叙事,谁就更容易吸引用户、资本和研究者。 “控制叙事确实很重要。” 🤖 David Silver 与强化学习信仰 David Silver 是 DeepMind 早期强化学习突破的关键人物,也是 AlphaGo、AlphaZero 背后的重要推动者。他坚信真正的超级智能必须从自己的经验中学习,而不是依赖人类留下的数据。Sebastian 认为,他离开 DeepMind创业,正是因为他希望在一个更小、更集中的组织里,让自己的强化学习愿景成为整个公司的核心路线。 “在他看来,一切都是 Agent,而且只能是 Agent,它们必须从自己身上学习。” 🔥 Demis 与 Elon 的复杂历史 Demis 和 Elon Musk 的关系非常戏剧化。Elon 曾投资 DeepMind,也曾试图阻止 DeepMind 卖给 Google。他担心 Larry Page 和 Google 不可信,甚至半夜通过 Skype 联系 Demis,试图说服他卖给 SpaceX 或 Tesla。但 Demis 拒绝了,因为 Google 有他需要的算力。此后 Elon 一度将 Demis 视为需要制衡的“邪恶天才”。 “如果你觉得自己在火星上就安全了,别忘了,我的 AI 会掌握太空飞行,然后它会一路跟你到火星。” 🧬 AI for science 是 Demis 的核心信念 AlphaGo 战胜李世石后,Demis 只享受了十秒胜利,就开始谈下一个目标:解决蛋白质折叠问题。Sebastian 认为,这不仅体现了 Demis 的雄心,也体现了他对 AI 社会合法性的判断:如果 AI 不能给人类带来明确好处,只带来工作冲击,那么社会可能会强烈反弹。AlphaFold 不只是科学突破,也是让人类接受 AI 的关键证据。 “如果 AI 不能给人类带来明确的好处,只是带来很多工作岗位的冲击,那 AI 能否大规模铺开就会成为问题。” 🌌 近乎精神性的科学追求 最让 Sebastian 改变对 Demis 看法的,是他发现 Demis 对科学奥秘有一种近乎精神性的执着。Demis 会拍着桌子说,我们其实并不理解这张桌子为什么是坚固的,也不理解一堆沙子和铜组成的电脑为什么能思考。对他来说,推动 AI 不只是技术竞赛,而是一种试图理解自然、智能乃至世界底层秩序的追寻。 “因为对他来说,这是一种近乎精神性的追寻。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

50分钟
1k+
2周前
#570. Notion创始人如何重启公司,AI 战时状态下的组织重塑

#570. Notion创始人如何重启公司,AI 战时状态下的组织重塑

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:红杉资本出品的访谈节目《Notion’s Ivan Zhao: The Refounder》 原内容更新时间:2026-05-21 本期嘉宾是 Notion 联合创始人兼 CEO Ivan Zhao,主持人是 HubSpot 联合创始人、红杉合伙人 Brian Halligan。Brian 将 Ivan 称为“重新创办者”,因为 Notion 的成长并不是一条平滑上升的曲线,而是经历过多次接近推倒重来的关键时刻:早期找不到 product market fit 时,他和联合创始人 Simon 裁掉团队,搬到京都从零重建;生成式 AI 爆发后,他又在公司已有数百人的阶段,把 Notion 重新推向 AI native。 这期节目不只是 Notion 的创业故事,更是一场关于 AI 时代公司如何被重新设计的深度对谈。Ivan 分享了他为什么认为用 language model 做产品不是“造桥”,而更像“酿啤酒”;为什么 Notion 想做“爵士乐队”,而不是“军乐队”;为什么 AI 会让招聘标准从经验转向品味、主动性和价值体系;以及为什么每家公司都应该把创新点限制在一两个地方,而不是试图重新发明整个世界。 如果你正在思考 AI 时代的组织形态、产品策略、创业转型、企业销售、创始人角色,或者一家成熟 SaaS 公司如何避免僵化,这期节目会提供非常多一手经验和高密度判断。 👨‍⚕️ 本期嘉宾 Ivan Zhao,Notion 联合创始人兼 CEO。Notion 是全球知名的协作、知识管理与生产力工具平台。Ivan 是一位典型的产品型创始人,长期关注 tools for thought、软件工具的工艺感,以及技术与人性之间的关系。他曾带领 Notion 在早期困境中重建产品并找到 product market fit,也在生成式 AI 兴起后推动公司转型为 AI native 组织。 ⏱️ 时间戳 00:00 开场 & 播客简介 重新创办者的登场 00:37 本期克隆节目介绍:红杉资本《Notion’s Ivan Zhao: The Refounder》 01:31 Ivan 的核心隐喻:我们想做爵士乐队,不想做军乐队 02:13 为什么 Brian 称 Ivan 为“重新创办者” 04:06 从 founder mode 到 AI 时代的新 CEO 模式 AI 时代,公司要怎么重新组织 05:08 Notion 早期五年:靠 seed 资金硬撑,迟迟找不到 PMF 06:25 疫情增长之后:小团队的甜头与扩张的压力 07:08 学会授权与引入管理层:传统 SaaS 经验的利弊 08:03 造桥还是酿啤酒:为什么 AI 产品构建不可预测 09:56 会写代码的设计师、懂产品的工程师与跨职能团队 10:48 AI 放在组织中间:信息、决策与公司结构的重塑 12:49 “软件 + language model 是组织里的钢” 13:17 AI 会让组织更扁平,但不会消灭人性中的层级 招聘与人才标准的变化 14:10 Notion 的人才公式:能力经验 × 品味价值观 × 主动意愿 15:18 为什么 AI 时代既要招初级人才,也要招顶级资深人才 15:48 杠铃型组织:资深架构师、年轻 IC 与 coding Agent 的组合 16:32 设计师和 PM 的边界如何改变 17:51 从经验、斜率到品味:AI 时代为什么 taste 变得重要 19:16 为什么 taste 不在语言模型里,而在人身上 战时状态下的公司运营 19:16 拆分营销组织:storytelling 靠近产品,demand gen 服务销售 20:42 招聘流程变化:不先看简历,而是先看你做出来的东西 21:44 薪酬与能力导向:不能再平均撒资源 22:57 战时比和平时期更有生命力 23:20 创始人如何在自上而下与自下而上之间切换 24:41 爵士乐队,不是行进乐队:Notion 的组织哲学 25:50 Jazz mode:在结构中保留即兴和共同参与 规划、成本与 AI 毛利率 26:56 财务可以像军乐队,产品必须像爵士乐 28:03 AI 产品的成本压力与毛利率问题 28:35 为什么知识工作产品不一定总需要最强模型 29:11 第二梯队模型、open weight 模型与企业内部工作流 第一次 Refounding:京都重建 Notion 29:39 Notion 的第一次重启:裁掉团队,只剩两位创始人 31:01 裁员的痛苦:身体会告诉你必须这么做 31:18 为什么是京都:更大的房子、更低的成本和换一个故事 32:26 京都的工艺精神如何影响 Notion 34:46 为什么不放弃重开一家公司:Notion 是 Ivan 的毕生问题 35:56 tools for thought、Grateful Dead 与早期计算机文化脉络 36:21 技术、人性与工艺:为什么硅谷不该忘记历史 第二次 Refounding:从 SaaS 转向 AI 公司 38:27 给卡住的创业者建议:听从身体里的直觉,做剧烈改变 39:52 五百人阶段的重启:Cancun 与 GPT-4 的“宗教体验” 41:19 AI 产品并非一夜成功:一年半 Agent 探索期 42:40 早期绝望、AI 低谷与“现在一切都在着火” 43:18 给 SaaS 公司建议:从产品开始,创始人必须亲自 build 44:14 为什么你必须感受 AI,而不是只读文章或看视频 让公司持续再生 45:16 如何让僵化公司重新变软:引入创始人作为“去僵化机器” 45:35 Notion 的收购与 acquihire:五六十位创始人在公司内部继续创业 46:37 给创业者更大杠杆:在 Notion 平台上继续做原来的使命 47:26 创业更容易,规模化更难:AI 时代竞争密度暴增 48:45 已有规模的公司是否应该 refound:先真正感受到 AGI 49:13 未来组织的不变量:人性、层级、分工与法律责任 50:54 AI 系统会做越来越多决策,人类负责 context 和品味 52:01 知识管理重新变重要:现代知识工作只有约 150 年历史 Ivan 的 CEO 工作方式 52:33 内向型 CEO:为什么仍然必须学会一对多沟通 53:13 All hands 必须由创始人亲自讲 54:04 提词器如何改变 Ivan 的公司沟通 54:36 Notion 的 all hands 和 AMA 节奏 55:49 Ivan 的一天:早起、咖啡、办公室、健身、晚餐和继续工作 56:30 周末是快乐时间:跟随好奇心进入 rabbit hole 56:59 25 分钟会议、整块思考时间与 Slack 作为社交媒体 57:47 谦逊还是追求真实:盲人摸象与多元真相 给创始人的建议 58:24 CEO 是一个社会性游戏:地位、权力、竞争与价值观 59:19 如何在竞争、手艺、产品和商业之间找到自己的平衡点 01:00:26 放大优势,而不是沉迷弥补弱点 01:01:05 Notion 的企业销售教训:不要试图重新发明一切 01:02:37 每家公司只应该在一两个地方创新 01:03:34 从 PLG 到企业销售:尊重传统 playbook 的原因 01:04:40 系统型 CRO 与猎手型销售负责人如何互补 01:05:31 公司像宗教:文化、仪式、信念与意义感 01:07:20 Brian 总结:AI native CEO 的新手册正在形成 🌟 精彩内容 💡 “我们想做爵士乐队,不想做军乐队” Ivan 用“爵士乐队”来形容 Notion 的组织状态:它不是完全没有结构,而是在结构中允许即兴、协作和个人发挥。AI 时代变化太快,传统的计划、层级和流程不足以应对每周都在改变的技术环境,因此公司需要更多能自主判断、能跨职能协作、能在模糊中推进事情的人。 “我们想做爵士乐队,不想做军乐队。” 🧪 AI 产品不是造桥,而是酿啤酒 Ivan 认为,传统软件开发像造桥:只要设计清楚,结果大体可预测。但用 language model 构建产品更像酿啤酒,你无法完全控制“酵母”的行为,只能让最强的人一起实验、评估、调试和打磨。这也解释了为什么 Notion 的设计师、工程师和产品人员边界越来越模糊。 “用 language model 构建产品,尤其当时是这样,现在某种程度上也还是这样,更像是在酿啤酒。” 🧠 AI 时代,品味比经验更稀缺 Notion 的招聘标准发生了明显变化。Ivan 提出人才等于“能力和经验 × 品味或价值体系 × 主动意愿”。在 language model 让更多人都能写作、编程之后,基础能力会被拉平,但品味、价值观、好奇心和主动性不会轻易被模型替代。因此 Notion 更愿意招两类人:非常年轻、有能量和主动性的人,以及非常资深、能提供方向和品味的人。 “因为 taste 不在语言模型里。taste 在人身上。” 🏗️ “Language model 加软件,就是组织里的钢” Ivan 用钢结构建筑来解释 AI 对组织的影响。在钢出现前,建筑高度受限;有了钢,城市天际线才发生变化。同样,过去公司依赖大量中间层传递信息、文件和决策,而 language model 加软件可以成为新的承重结构,帮助组织更快地流转信息、辅助决策,并重新设计内部流程。 “language model 加软件,就是组织里的钢。” 🔁 Notion 的第一次重启:京都、裁员与从零重建 早期 Notion 找不到 product market fit,钱也快花完。Ivan 和联合创始人 Simon 做出剧烈决定:裁掉团队,只剩两个人搬去京都,从零重建产品。京都的工艺传统、寺庙、刀具、陶瓷和工具文化,让他们更强烈地意识到,软件也应该是一种被认真打磨的工具。 “你身处这种地方,怎么可能不被激励,去做一个更好的软件工具呢?” ⚡ 第二次重启:GPT-4 带来的“宗教体验” 当 Ivan 第一次体验 GPT-4 时,他觉得世界停住了。他意识到,如果 Notion 不做 AI,公司正在做的一切都可能失去意义。但这次转型并不是顺风顺水,Notion 花了一年半探索 Agent 产品,中间尝试了 Anthropic、OpenAI finetuning 等多种方案,都没有马上跑通。直到模型能力真正提升,AI 产品才开始带来增长拐点。 “GPT-4 对我来说像一次宗教体验。你必须用它做点什么。它会改变一切。” 🛠️ 创始人必须亲自 build,才能真正理解 AI 对于那些想转型 AI 的 SaaS 公司,Ivan 的建议非常直接:从产品开始,创始人必须亲自参与,必须真正使用 language model,必须感受它能打开哪些新路径。只是读文章、看视频、听别人讲都不够。你可以为产品 build,也可以为内部系统 build,甚至周末自己折腾小工具,但一定要亲手做。 “你必须去做点什么,必须感受它。感受 AI,感受 AGI。” 🎯 不要什么都创新:每家公司只需要一两个创新点 Notion 曾经试图重新发明企业销售,希望用第一性原理打造一套全新的 go-to-market 方式。但 Ivan 后来承认这是错误的:传统企业销售 playbook 能存在二十年,是因为它符合人性。客户在购买昂贵产品时,仍然想见到真人,想获得信任感。Ivan 的反思是,每家公司都应该把真正的创新限制在少数几个地方。 “每家公司都应该把自己的创新点限制在少数几个地方。一两个地方就够了。” 🧭 CEO 是社会性游戏,但也必须忠于自己的价值观 Ivan 认为,CEO 是一个充满地位、权力、竞争和社交动态的游戏,有点像娱乐业,也有点像体育。但如果只为了竞争而竞争,能量并不可持续。真正重要的是找到自己的价值观平衡点:你到底想建立什么样的公司?你在乎手艺、产品、人性、商业、竞争中的哪一部分?随着能力越来越被机器商品化,创始人自己的观点、品味和优势会变得更重要。 “我需要和自己的价值观达到一种平衡,弄清楚我到底想建立一家什么样的公司。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

71分钟
2k+
2周前
#569. 深入 xAI:三个月打造 Grok Imagine、视频生成与世界模型之争,以及视频智能体

#569. 深入 xAI:三个月打造 Grok Imagine、视频生成与世界模型之争,以及视频智能体

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:Latent Space: Inside xAI: Building Grok Imagine in 3 Months, Videogen vs World Models, and Video Agents— Ethan He 原内容更新时间:2026-06-01 本期节目是一场关于视频生成、世界模型和 Video Agent 的高密度技术访谈。嘉宾 Ethan He 曾在 Nvidia 参与 Cosmos world model,后来加入 xAI,从零参与 Grok Imagine、音视频联合生成、reference video、视频延展和 world model 相关工作。他在节目中复盘了 xAI 如何在短短三个月里,从没有基础设施、没有数据、没有模型的状态,快速做出 Grok Imagine 0.9;也详细解释了视频模型从数据、caption、VAE、diffusion transformer 到 distillation 的完整训练链路。 更重要的是,Ethan 提出了几个非常有判断力的观点:视频模型的很多进步,其实来自语言模型,而不是视频 diffusion 本身;world model 在他看来就是“实时、可交互、长时程的视频”;未来的 Video Agent 会像人类创作者一样,调用视频模型、图像编辑器、FFmpeg 和各种确定性工具,迭代生成真正可用于广告、创作和生产环境的视频内容。这期不仅适合想理解视频生成技术路线的人,也适合想提前看懂 AI 交互界面、生成式媒体和 Agent 未来趋势的听众。 👨‍💻 本期嘉宾 Ethan He,曾在 Nvidia 参与 Cosmos world model 和 Megatron-LM MoE 等工作,后加入 xAI,参与 Grok Imagine、视频生成、音视频联合生成、reference video、视频延展和 world model 相关研发。他的研究经历横跨计算机视觉、自监督学习、大规模 MoE、视频 diffusion、world model 和 LLM Agent。 ⏱️ 时间戳 00:00 开场 & 播客简介 从 Cosmos 到 xAI:三个月做出 Grok Imagine 02:42 嘉宾登场:Ethan He 与 Latent Space 社区的缘起 04:14 为什么离开 Nvidia:视频模型也有 scaling law,需要更大算力 05:43 xAI 从零起步:三个月做出 Grok Imagine 0.9 06:15 快速迭代的秘密:人才、infra、compute 与低沟通成本 08:23 模型质量提升的真相:很多突破来自数据和训练 pipeline 里的小 bug 08:37 Coding model 如何改变研究节奏:代码更快,compute 再次成为瓶颈 09:54 高压研发文化:算力昂贵,但这是一场马拉松 视频模型是怎么训练出来的 11:46 为什么做视频模型之前,通常要先做图像模型 12:50 数据从哪里来:人工详细标注与 VLM 生成 synthetic caption 14:12 训练视频模型为什么既需要配对数据,也需要无标签数据 15:07 VAE / tokenizer:为什么不能直接在像素上训练 17:08 Diffusion transformer:从噪声一步步去噪生成图像和视频 17:27 图像模型如何 bootstrap 视频模型:语言与图像连接更密集 18:24 视频压缩路线:逐帧压缩 vs 时间维度压缩 18:55 为什么不用 MP4 token 直接训练:latent space 必须对模型友好 20:00 实时性的代价:时间压缩节省 context,但会引入响应延迟 生成式 UI 与世界模型的早期形态 20:51 Flipbook:像浏览器一样探索模型想象出的网页 22:31 Generative UI:从用户意图直接到像素,而不是先写代码再渲染 24:09 Diffusion 前端,确定性后端:未来界面可能如何被重构 25:15 人机交互的带宽:人类用语音输出,用视觉输入 26:15 NeuroOS:用视频模型模拟操作系统和游戏 27:52 从过拟合现有界面,到想象全新交互系统 28:47 为什么视频模型能生成训练集中不存在的超自然内容 视频模型的成本、加速与音视频联合生成 31:05 视频模型到底有多贵:训练成本接近中等规模 LLM 31:52 被低估的成本:视频存储、特征存储、IO 和 egress 33:29 训练规模:数十万亿视觉 token、百亿级 active 参数 34:16 推理端加速:step distillation 如何把一百步变成几步 36:36 Consistency model、GAN 与少步生成的关系 37:48 Grok Imagine 0.9:大规模音视频联合生成模型 38:00 音频为什么难:speech 更离散,music 更连续 40:25 音视频对齐:模型必须理解每一秒声音和画面的关系 41:20 时间感:为什么 LLM 本身并不真正感知时间 Ethan 对 World Model 的定义 43:47 什么是 world model:实时、可交互、长时程的视频 44:03 交互性:键盘、鼠标、语音都可以成为输入模态 45:00 实时性:游戏需要毫秒级响应,数字人也要接近两百毫秒 46:00 长时程:世界模型不能只生成几秒,而要持续几分钟甚至几小时 47:00 视频延展:通往长时程 world model 的第一步 48:00 长 context 的挑战:五秒视频就可能有五六万 token 49:03 为什么用户喜欢视频延展:它是通往最终目标的中间产品 Reference Video 与动态上下文管理 51:24 长视频里的冗余:不是所有历史都需要一直放进 context 52:01 Reference video:用角色、物体、场景作为生成条件 52:46 为什么 reference 是一种“作弊”,也是一种重要机制 54:34 FramePack 与动态 context selection:离当前越远,信息越压缩 55:52 LLM 与视频模型共享的问题:context pruning 目前仍高度依赖 heuristic 56:14 Continual learning 的可能突破:让模型自己管理上下文 57:00 人类注意力的启发:不是记住一切,而是动态拉取相关信息 xAI 文化与生成式视频安全 58:35 xAI 被低估的地方:move fast、build、宏大目标和 first principles 59:30 如何倒推三个月目标:从数据、训练、人工标注、GPU 周转时间拆解 60:12 Elon Musk 的工作方式:非常 hands-on,直接给反馈 61:09 Grok Voice:实时语音体验、打断能力和车载场景 61:56 生成式视频安全:水印、下架和社交平台治理 62:19 SynthID 的局限:论文公开后,水印也可能被反向工程 63:04 AI 生成内容越来越难识别:从看手指,到看逻辑是否成立 视觉智能为什么来自语言 64:31 核心判断:视觉智能很大程度来自语言模型 65:00 Prompt rewriter:视频模型背后的“大脑” 65:40 为什么视频 diffusion model 很“字面”:用户说“一只猫”,它可能只生成一只不会动的猫 66:10 GPT Image 类模型为什么要“想几分钟”:时间花在推理、重写 prompt 和组织内容上 67:07 不同架构路线:独立 LLM + diffusion、omni model、离散图像 token 68:21 生成—理解—再生成:omni model 可能如何迭代优化图像 69:54 Prompt rewriter 与 diffusion head 不是一回事,但语言侧都在贡献智能 70:33 不需要 joint training,光重写 prompt 就能显著提高画面质量 Video Agent:生成式媒体的下一波 71:54 Video Agent 的愿景:像人类创作者一样调用工具、编辑、迭代 72:13 Grok Imagine Agent beta:从视频生成走向视频创作工作流 72:29 为什么“生成一分钟视频”是 Agent 任务,而不是单次视频模型任务 73:30 从 Copilot 到 Claude Code:视频创作也会经历 Agent 化 74:17 速度、thinking budget 与 inference infra 75:12 Video Agent 的真正价值:不是模型到头了,而是 harness 和工具链解锁新能力 76:21 AI 模型更懂 AI 模型:未来会有模型专门负责 prompt 和调度生成模型 77:28 为什么确定性工具仍然重要:字幕、排版、精准编辑不必全靠视频模型 78:02 Ethan 的时间判断:年底 Video Agent 会成为大热点 78:20 Production grade 视频:一旦可用于广告和展示,预算会指数级增长 机器人、LLM 与下一阶段研究 78:36 World model 不一定只服务机器人,但机器人会自然成为 AI 可调用的工具 79:12 Physical AI 也许不需要先在真实世界解决,可以先被强视频模型解决 80:10 为什么离开 xAI:想做公司优先级之外的研究,尤其是语言模型方向 81:06 视频模型的瓶颈,正在转向语言模型和 Agent 81:31 未来一年关注什么:模型感知并管理自己的 context 82:00 Context awareness:模型应该知道自己快到上下文上限了 82:30 Context addition / removal / compaction:今天由 harness 做,未来可能被模型吸收 83:59 Self-modifying harness:模型像程序一样,在 test time 给自己编程 85:22 职业路径:从 ResNet 时代的视觉研究,到 FAIR、Cosmos、MoE、xAI 86:44 为什么跨方向并没有想象中困难:训练大模型的原则高度相通 87:33 收尾:xAI 背后还有很多未被讲清楚的层次 🌟 精彩内容 💡 三个月做出 Grok Imagine:速度来自迭代能力 Ethan 回顾了自己加入 xAI 时的状态:没有 infra、没有数据、没有模型,只有几个工程师和一个非常明确的目标。最终团队用三个月发布了 Grok Imagine 0.9。他认为,训练模型最关键的不是某个神奇算法,而是端到端迭代速度:你每天能做多少轮实验,发现多少 bug,修正多少数据和训练 pipeline 的问题。 “我看训练模型这件事时,最重要的其实是,你每天能做多少轮迭代。” 🧠 视频模型的进步,很多来自语言模型 本期最反直觉的观点是:视觉智能很大程度来自语言。Ethan 解释说,视频 diffusion model 本身往往非常字面,它们需要一个更强的语言模型做 prompt rewriting,把用户简单的指令扩展成极其详细的视觉描述。很多图像和视频质量的提升,不是因为 diffusion 模型突然更聪明,而是因为语言模型更会思考、更会写 prompt、更会调用工具。 “我有一个挺大的判断:视觉智能很大程度上其实来自语言,尤其是这些视频模型。” 🌍 World model 是什么:实时、可交互、长时程的视频 Ethan 不试图争论 world model 的唯一标准定义,而是从视频生成角度给出自己的定义:world model 就是实时、可交互、长时程的视频。它要能响应键盘、鼠标、语音输入;要能做到低延迟;还要能持续生成几分钟甚至几小时,并保持角色、声音、物体和事件的一致性。 “在我看来,world model 就是实时、可交互、长时程的视频。” 🧩 长视频的核心难题:不是更长 context,而是会管理 context 视频生成面临巨大的 context 压力。Ethan 提到,Cosmos 中五秒视频就可能有五到六万 token,长视频很容易爆炸。因此,未来的关键不只是硬扩 context length,而是让模型学会动态选择历史信息:什么时候需要完整记住上一秒,什么时候只需要压缩远处历史,什么时候要把某个角色的 reference 拉回来。 “模型应该能够自己选择性地知道,我应该从哪里取 reference。” 🎬 Video Agent 会成为生成式媒体的下一波 Ethan 认为,Video Agent 不是简单地“生成几个片段再拼起来”,而是会像人类创作者一样,使用视频模型、图片编辑工具、视频编辑器、FFmpeg、字幕工具和确定性工具,反复生成、检查、修改、组合,最终做出 production grade 视频。他预测,到年底 Video Agent 会成为一个大热点,一旦生成视频达到广告和展示可用标准,企业预算会快速进入。 “AI 模型更懂 AI 模型。” 🔊 音视频联合生成的难点:时间对齐 Grok Imagine 0.9 被 Ethan 称为第一个大规模部署的音视频联合生成模型。它的难点不只是生成声音,而是让声音、音乐、对白和画面在时间上精确对齐。文本和图像的对齐可以比较松散,但音频和视频必须在每一个时间步上对应,这让数据标注、caption 和模型设计都更加复杂。 “模型必须知道视频和音频之间有基于时间的对齐关系。” 🖥️ Generative UI:未来界面可能直接由模型生成 Ethan 展望了一种未来:如果推理成本足够低,用户界面不一定再由代码写出、浏览器渲染,而可以由 generative model 直接从用户意图生成像素。你可以让 email 像 TikTok 一样呈现,也可以生成没有点赞按钮的 Instagram stories。LLM 和 coding model 负责后端逻辑,diffusion model 成为前端视觉层。 “Generative UI 就是从用户意图直接到像素。” 🧠 LLM 的下一步:感知并管理自己的上下文 离开 xAI 后,Ethan 接下来更关注语言模型方向。他认为,模型未来需要知道自己的 context 状态:什么时候快到上限,什么时候该压缩,什么时候该删除工具调用结果,什么时候该把某些信息重新加入上下文。今天这些工作主要由 Agent harness 的 heuristic 完成,但未来可能会被模型自己吸收。 “启发式工程里的很多东西,最后也会被模型自己吸收进去。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

89分钟
1k+
2周前
评价

空空如也

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧