跨国串门儿计划 - 节目列表

#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

#519.普林斯顿Zhuang Liu谈架构、数据与记忆的真相

跨国串门儿计划

📝 本期播客简介 本期我们克隆了资深科技播客《Information Bottleneck》的一期节目 What Actually Matters in AI? - with Zhuang Liu (Princeton) 主持人 Ravi 和 Ellen 对谈普林斯顿大学助理教授 Zhuang Liu。Zhuang Liu 是深度学习架构、视觉表征与多模态学习领域的活跃研究者,曾提出 ConvNeXt 等广为采用的模型。在这场深度对话中,他系统性地拆解了构建强大 AI 系统中那些真正起作用的因素:为什么架构创新可能被高估,数据才是真正的驱动力;如何科学地评估一个新架构的价值;视觉数据的极高带宽如何让语言模型率先突破;以及他对记忆、上下文和智能体未来的独到见解。无论你是研究者、工程师还是 AI 爱好者,这期节目都将刷新你的认知。 👨‍⚕️ 本期嘉宾 Zhuang Liu,普林斯顿大学助理教授。研究兴趣包括深度学习架构、视觉表征、多模态学习。曾提出 ConvNeXt 等广受关注的模型,并在多篇顶会论文中探讨神经网络设计的核心要素。 ⏱️ 时间戳 00:00 开场介绍 & 嘉宾背景 架构与细节:什么才是神经网络成功的关键? 02:05 从 ConvNeXt 谈起:卷积网络能否与 Transformer 抗衡? 06:39 细节组合胜于核心组件:激活函数、归一化层的累积效应 08:51 架构没那么重要,数据和计算才是真正的驱动力 10:54 评价架构创新的黄金准则:超参数搜索与多数据集验证 数据为王:偏见、多样性与混合策略 13:42 数据集的“偏见”:模型竟能分辨图片来源? 16:39 好数据的配方:多样性、风格与等量配比 18:49 从 Ilya 箴言到通用模型:数据覆盖就是王道 多模态:视觉的桥梁与盲点 19:05 ImageBind:以视觉为枢纽对齐多模态 20:31 语言先行的秘密:视觉带宽过高而算力尚不足 22:38 《Eyes Wide Shut》:CLIP 的空间盲点与视觉编码瓶颈 记忆、上下文与世界模型 24:19 强化学习与智能体的边界 28:59 “记忆和上下文是目前最重要的两个方面” 30:35 世界模型之辩:语言层面已有很好的世界模型 33:09 何时需要视觉世界模型?现实世界任务 模型个性、工具与研究新范式 34:28 模型“独特性”:文本里的隐形签名 37:06 预训练 vs. 后训练:为什么后训练导致差异? 38:59 持续学习:为了稳定的记忆而非新技能 39:24 编程工具体验:Claude Code 与 Codex 谁更胜一筹? 40:08 智能体能替代学生吗?自主研究的现状与局限 43:09 《无归一化的Transformer》:动态tanh能取代归一化吗? 44:40 Metamorph:理解作为生成的基础 45:54 结语与告别 🌟 精彩内容 💡 细节决定成败 Zhuang Liu 通过 ConvNeXt 研究揭示:卷积网络与 Transformer 之间的性能差距,主要来自训练细节和设计配方的差异,而非自注意力与卷积本身。这提醒我们,看似微不足道的超参数与组件组合,往往比宏大的架构叙事更重要。 “这些小细节组合在一起,比那些看起来像是网络核心组件的改变要重要得多。” 💡 数据才是真正的护城河 在受访中,Liu 反复强调,架构选择的差异远不如训练数据的规模、多样性与分布来得关键。模型的能力上限,很大程度上被它所“看”过的数据所定义。 “你想让模型在哪方面做得好,最好就针对那方面去训练。” 💡 记忆与上下文:AI 的下一个突破口 Liu 认为,当前大模型最紧迫的挑战不是能力不足,而是记忆的缺失。持续记住用户的偏好、交互历史和情境,远比设计更复杂的多智能体系统更具变革意义。 “我觉得记忆和上下文是目前最重要的两个方面,尤其是记忆。” 💡 语言里的世界模型 尽管很多研究者认为当前模型尚未具备真正的世界模型,但 Liu 指出,在高度抽象的语言空间里,语言模型已经能够进行连贯的因果推演,展现出令人惊叹的逻辑一致性。 “模型在这个空间里的世界模型其实非常好。” 💡 视觉:被忽视的桥梁 通过 ImageBind 等工作,Liu 展示了视觉作为一种“天然桥梁”,能够将多种模态连接至同一嵌入空间。但他也坦承,视觉数据的高通量特性导致其在算力需求上数倍于语言,这解释了为什么视觉模型还未迎来语言模型那样的爆发。 “视觉是一种天然桥梁,能够连接所有模态。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

46分钟
1k+
1个月前
#518. AI时代的超级个体:Notion产品负责人谈主动性、品味与可塑软件

#518. AI时代的超级个体:Notion产品负责人谈主动性、品味与可塑软件

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:硅谷顶尖创投播客《Lenny's Podcast》,主持人对谈Notion产品负责人Max Schoening。Max的背景横跨设计与工程,曾在Google担任产品经理、在Heroku管理设计团队,又先后在GitHub主导设计和前端开发,是一位难以用单一标签定义的全能型产品人。随着AI开始重塑每一个行业,他在这场对话中分享了大量关于“主动性比技能更重要”的深刻洞见——他如何推动Notion的设计师和产品经理直接写代码,什么是“可塑软件”,以及他对产品品味、团队效率和未来职业的犀利看法。这不仅是一堂关于AI时代产品构建的思维课,更是一次关于如何在不确定世界中保持能动性与创造热情的启迪。 👨‍⚕️ 本期嘉宾 Max Schoening,Notion产品负责人。他是一位连续创业者,横跨设计与工程的独特经历让他成为AI原生时代最令人瞩目的产品领袖之一。曾在Google担任产品经理,在Heroku管理设计团队,并在GitHub主导设计与前端开发,如今在Notion引领AI为核心的产品进化。 ⏱️ 时间戳 00:00 开场 & 播客简介 AI时代的产品角色重塑 00:01:41 “像开偷来的车那样驾驭Notion”:世界由不比你聪明的人创造 00:04:22 从“停止画死鱼”到让设计师写代码的起源故事 00:07:44 写代码的真正目的:成为材料的大师,而不是齿轮 00:09:53 区分未来成败的关键:主观能动性(Agency) 00:14:14 如何培养主动性:从制作东西开始,唤醒改变世界的能力 可塑软件与SaaS的未来 00:16:00 什么是可塑软件?让软件贴近用户而非公司利益 00:19:10 迪特·拉姆斯的设计哲学:“有用”是检验设计的唯一标准 00:20:36 SaaS末日不会来:即服务部分才是核心,工具会更通用 产品开发的新范式:速度、质量与品味 00:24:50 每个项目前10%几乎免费:从写PRD到直接演示 00:26:30 推理速度如何重塑协作:从排队任务到回归直接操作 00:29:10 先别急着算ROI:Token花费不是值得炫耀的指标 00:31:05 让非工程师感受“超能力”:如何推动团队拥抱AI 00:34:00 编程能力正在渗透一切领域,软件吞噬世界加速 00:38:54 多“射门”与“明显好”:Notion的发布哲学 00:44:08 品味的修炼:在大脑中运行一台“用户反应虚拟机” 伟大产品的共同秘密:微小超能力 00:48:14 千万别掉入“我只要再加一个功能”的死亡螺旋 00:50:03 所有伟大的产品都有一个极小的出色核心(Heroku、Dropbox、AirPods) 00:52:08 跳出产品经理的身份:“待办任务”框架的正确用法 个人反思与逆向观点 00:54:52 全民基本收入?其实你早就有了:它叫知识工作 00:57:51 包容并不总是好:为什么“排他”有时是制胜关键 00:59:15 从失败中学习:放松招聘的滑坡、GitHub Actions的遗憾、错过Notion 01:02:05 给年轻人的忠告:别让FOMO绑架,热爱电脑本身 快问快答 01:04:48 书籍推荐:《Code》《Tools for Conviviality》《Seeing Like a State》 01:06:04 影视剧:《Project Hail Mary》《使女的故事》 01:07:11 产品推荐:Ghostty终端、Moshi App、Corne键盘、Chris Reeve折刀 01:08:17 座右铭:“宇宙即变化,生活由你塑造” 01:08:44 最喜欢的德语词:Tüfteln(鼓捣) 结尾寄语 01:09:15 如何找到Max:Twitter @maxdodev 01:09:35 最后建议:看看周围的世界,一切都由不比你聪明的人创造,去发挥你的能动性吧 🌟 精彩内容 💡 像开偷来的车那样驾驭Notion:主动性是新时代的核心技能 Max提出,在AI让技能壁垒日益消失的时代,区分能否成功的关键不再是你会什么,而在于你的主观能动性。他鼓励每个人像开着一辆偷来的车那样驾驭自己所处的环境,意识到“世界是由一群并不比你更聪明的人创造的”,从而打破自我设限,真正去动手改变周围的世界。 “有一天你醒来,会意识到这个世界就是由一群并不比你更聪明的人创造的。这真的会点醒你,让你明白你其实可以改变事情。” 🔧 可塑软件:夺回你的数字生活控制权 作为“可塑软件”理念的坚定倡导者,Max认为软件应该更贴近使用者的利益,而不是制造它的公司的利益。就像你不会容忍一间无法重新布置客厅的房子,我们也不该被困在那些由硅谷象牙塔完全设计好、无法微调的应用里。可塑软件旨在让普通人对自己的计算生活重新拥有掌控感。 “想象一下,如果你住在一个地方,却不能重新布置自己的客厅,厨房也得完全按别人规定的方式摆放,我们会接受吗?肯定不会吧。但现在的软件世界差不多就是这个样子。” 🧠 品味:在大脑中运行一台“用户反应虚拟机” 针对AI开始大量参与构建产品之后人类需要更强的判断力,Max给出了他对“品味”的独特定义:你能否在脑子里运行一台虚拟机,针对一个想法,精准预判某个特定群体是否会喜欢它。这种能力没有捷径,需要通过大量的迭代与反馈来训练,就像训练一个AI模型一样。 “品味实际上意味着你能在脑子里运行一个虚拟机:给你一个点子,你就能预测某个特定群体是否会喜欢它。你只需要大量练习。这几乎就像在训练一个模型。” ❤️ 伟大产品的微小超能力 回顾他参与和欣赏的所有成功产品,Max提炼出一个核心规律:所有伟大的产品都有一个极小的、像超能力一样出色的核心,比如Herokugit push heroku master、Dropbox的隐形同步、AirPods的无缝连接。而最大的陷阱,就是反复陷入“只要我再加一个功能,它就会变得很棒”的循环之中。 “所有伟大的产品都有一个微小的超能力。就是某个极其出色的微小核心。最大的陷阱之一,就是陷入这种循环:‘只要我再给产品加一个功能,它就会变得很棒。’这个办法从来都没用。” 🌐 播客信息补充 翻译克隆自: 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

71分钟
2k+
1个月前
#519.巴菲特首次台下对话:恐慌时买入、黄金法则与美国的秘密配

#519.巴菲特首次台下对话:恐慌时买入、黄金法则与美国的秘密配

跨国串门儿计划

📝 本期播客简介 本期我们克隆了 CNBC 的《伯克希尔·哈撒韦股东大会》深度访谈,主持人 Becky Quick 与沃伦·巴菲特展开了一场极其罕见的坦诚对谈。巴菲特首次坐在台下观看股东大会,他分享了自己六十多年投资生涯中沉淀的智慧:为什么在别人不接电话的时候才是最佳买入时机;为什么意想不到的事才会发生;以及他给所有股东和伙伴的那条不花一分钱的黄金法则。此外,他还谈到了对当前市场赌博化的担忧、对通胀的洞察、对 AI 深度伪造的警惕,以及选择接班人格雷格·阿贝尔背后的深层原因。这不仅是一堂投资大师课,更是关于人生、选择和信念的深刻对话。 👨‍⚕️ 本期嘉宾 沃伦·巴菲特,伯克希尔·哈撒韦公司董事长。他被公认为历史上最成功的投资人之一,自 1965 年起执掌伯克希尔,将其从一家纺织厂打造成市值近万亿美元的商业帝国。现年 94 岁的他近年逐步交班,这是他第一次坐在台下而不是台上接受提问,分享了许多从未公开过的思考。 ⏱️ 时间戳 00:00 开场 & 播客简介 投资哲学:别人不接电话时买入 03:02 六十年只有五年是肥美的:什么都不做的智慧 04:06 能力圈:不懂的行业绝不碰,不需要学新东西 06:40 买进东西的最好时机,就是别人都不接电话的时候 市场就像连着赌场的教堂 04:25 教堂与赌场:赌徒比以往任何时候都多 04:49 短线期权是纯粹的赌博,不是投资 06:28 意想不到的事才会上演,被谈论的往往不会发生 宏观与通胀:零利率也没进教科书 08:23 通胀让农民破产,美国并非免疫 09:46 鲍威尔在位让人安心,几乎无法预测极端情况 10:47 二十五年的教科书没提零利率,没想到的事才造成巨大损害 判断人与交接:持仓 CEO 与深度伪造 11:06 苹果、可口可乐等主要持仓的 CEO 更替 12:35 判断人就像结婚,往往会犯错 13:37 AI 深度伪造:模仿总统的声音,比广播剧更可怕 格雷格·阿贝尔:极其聪明的接班人 14:33 选择格雷格不是因为他是个好人,而是因为他极其聪明 14:57 即将成为美国公民,对他来说意义非凡 美国的秘密配方 15:29 几百年人人都想移民美国,里面有一种难以定义的秘方 16:08 尽管分配极度不平等,但吸引力依然巨大 给股东的黄金法则 17:54 你想别人怎么待你,你就怎么待别人 18:45 我从未见过这样做的人不快乐,这事不花你一分钱 19:07 结尾致谢 🌟 精彩内容 💡 恐慌时买入:别人不接电话的时候 巴菲特说:“买进东西的最好时机,就是别人都不接电话的时候。” 他解释,市场暴跌时交易员会切断联系,或者挂出巨大的买卖价差。很多最好的机会就藏在这种恐慌之中,而那些被人们天天讨论、预测的“风险”,反而往往不会成真。真正的威胁,总是来自那些被所有人忽略的角落。 💡 能力圈与“什么都不做” “我在这一行已经做了六十年,可能其中只有五年是真正肥美的。” 巴菲特承认自己不去学新的行业,因为他知道那不是他的优势。他用 IBM 老汤姆·沃森的话说,“我只有几个聪明点,然后我就只守在这些点上。” 在噪音环绕的市场里,说“不”的能力比说“是”更重要。 💡 黄金法则:不花一分钱的快乐 当被问到想对追随几十年的股东说什么时,巴菲特给出了他人生最核心的建议:“把黄金法则给出去——你想别人怎么待你,你就怎么待别人。” 他强调,这一条不花一分钱,却能让人更快乐。“我从没见过任何这样做的人是不快乐的。从某种意义讲,它也挺自私的,因为它会让别人反过来对你好。” 💡 美国的秘密配方 巴菲特感慨,美国有一种说不清的“秘方”,让全球的人几百年来都想迁居至此。即使财富产出分配极度不平等,这种吸引力依然存在。他用接班人格雷格·阿贝尔即将成为美国公民为例,说这份骄傲与期待,用金钱买不到,也无法用广告包装。 🌐 播客信息补充 翻译克隆自: 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

19分钟
2k+
1个月前
#517. 解码Snap的未来:Evan Spiegel详解AR眼镜、AI写代码与社交网络新范式

#517. 解码Snap的未来:Evan Spiegel详解AR眼镜、AI写代码与社交网络新范式

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名英文科技播客《Decoder》的一期深度对谈 What comes after smartphones, with Evan Spiegel of Snap 主持人 Nilay Patel 与 Snap 公司联合创始人兼 CEO Evan Spiegel 在酒吧里边下棋边聊,坦诚分享了 Snap 的最新进展、Spectacles 眼镜的研发历程,以及他对增强现实、人工智能和社交网络未来的深刻洞见。从十二年 AR 之路的技术攻坚,到 AI 如何彻底改变软件开发,再到社交与媒体为什么要彻底分开——Evan Spiegel 用他的人本主义技术观,描绘了一幅不随大流的科技蓝图。 👨‍💼 本期嘉宾 Evan Spiegel,Snap Inc. 联合创始人兼 CEO,Spectacles 眼镜的缔造者。他自 2014 年起带领团队投入 AR 眼镜研发,同时将 Snapchat 打造成月活近十亿的即时通讯平台。他以对产品的不妥协和对人本设计的坚持闻名,是少数敢于挑战主流社交模式、并持续押注下一代计算的创始人之一。 ⏱️ 时间戳 开场 00:00 开场 & 播客简介 AR 之路与 Spectacles 01:35 Snap 的“熔炉时刻”:十亿月活、净利润盈利在即 02:22 Spectacles 首次面向消费者:十二年磨一剑 03:04 技术挑战:为什么把计算机塞进眼镜这么难? 07:51 全栈自研:从 Snap OS 到光学引擎,为什么弃用安卓? 12:34 何时普及?1984 年 Macintosh 式的早期尝鲜者 15:23 拍照眼镜的教训:“好十倍”原则与护城河 未来计算与人机交互 04:25 后手机时代:先转移大屏,再创造全新体验 09:52 以人为本的设计哲学:为什么眼镜是计算的必然归宿 16:08 “杀手级应用已死”:AI 时代,人们为自己量身打造软件 18:10 Lens Studio:让任何人都能快速构建 AR 体验 社交网络的设计哲学 20:31 Snapchat 的核心:即时通讯与年超万亿自拍的相机帝国 24:35 网络不是越大越好:为什么密友圈带来更强幸福感 27:06 最大的错误:把社交和媒体结合,制造反常激励 29:35 短暂性的价值:默认删除,保存例外 31:05 未来的沟通:通过 Spectacles 在真实世界中连接 商业、青少年与责任 21:38 营收双引擎:广告 + Snapchat Plus(2500 万订阅,年化十亿美元) 22:16 当 AI 推理成本上升,直接收入为何越发重要 33:05 孩子与屏幕:健康平衡胜过一刀切 36:10 澳大利亚禁令的失效:克隆应用与系统级控制缺失 38:20 社交媒体与心理健康:为什么 Snapchat 呈正相关? 41:09 内容准则:在源头审核,而非依赖算法纠偏 产品创新与领导力 43:15 保持“酷”的秘诀:不追求酷,追求持久价值 43:59 每周几百个创意:设计师直接提交代码的设计评审 45:42 连续互发(Streaks)的转变:从反对到被用户故事打动 47:33 跨职能协作:设计、工程与产品的平等对话 47:58 挪威奇迹:高网络渗透 + 重视亲密关系,点燃早期增长 50:12 领导力进化:从打造产品到激励人攻克最难问题 制造与知识产权 51:23 美国制造:关键光学组件本土化,保护核心 IP 52:33 结尾:酒吧飞镖与下棋,轻松收官 🌟 精彩内容 💻 AI 席卷代码库 “现在 Snap 超过三分之二的新代码都是 AI 写的,这个转变发生得非常非常快。……我们写软件和运营公司的方式正在发生翻天覆地的变化。” Evan 透露,Claude 等工具正在彻底改变全公司的软件开发,而这也让 Snap 在 AI 时代拥有更独特的竞争优势。 🔀 社交与媒体必须分开 “最大的错误就是把社交和媒体结合在一起,这制造了很多反常的激励。” Snap 从一开始就将好友沟通与公共内容严格分开,避免为了填充信息流而迫使用户加更多好友,从而保护了密友圈的私密、自在与真实表达。 ❌ 我们不想让你盯着一堆数字看 “我们不想让你盯着一堆数字看,我们想退后一步,帮你跟朋友好好交流。” Evan 解释 Snap 为何抵制显式的粉丝数、点赞数等量化指标,甚至多次想砍掉 Streaks 功能,最终却被无数用户来信说服——一个简单的连续互发标记,成了维系远方友谊的生命线。 👓 眼镜是计算的必然 “如果让计算更人性化,它必须从口袋里拿出来,放在眼前和耳旁。” 从十几年前开始做 Spectacles,Evan 就坚信眼镜是能融入人类生活、解放双手、理解环境的最佳形态,而非一块让人低头的屏幕。 💡 “好十倍”铁律 “如果做不到比现有方案好十倍,那投资进去就没意义。” 早期拍照眼镜的失败让 Snap 立下这条产品铁律,也是为什么 Spectacles 不满足于做 GoPro 替代品,而是瞄准真正的空间计算平台。 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

54分钟
1k+
1个月前
#516. Andrej Karpathy 对谈:为什么程序员从未如此落后?

#516. Andrej Karpathy 对谈:为什么程序员从未如此落后?

跨国串门儿计划

📝 本期播客简介 本期我们克隆了:一档以人工智能为核心的英文对谈播客 Andrej Karpathy: From Vibe Coding to Agentic Engineering 本期嘉宾 Andrej Karpathy 是 OpenAI 联合创始人、特斯拉 Autopilot 前 AI 负责人,也是“软件 2.0”理念的提出者和“vibe coding”一词的创造者。在离开前沿大厂后,他以更犀利的视角重新审视 AI 编程的爆发。他为何说自己作为程序员从未感到如此落后?Vibe coding 如何从一个玩笑变成真正的工程实践?软件 3.0 时代,编程的本质被改写成什么?Andrej 用亲身案例、可验证性框架以及“动物与幽灵”的比喻,为听众描绘了一幅从编码到智能体工程的认知地图。他还强调:无论 AI 如何进化,“你不能外包你的立场”。这是一场关于技术变革与人类定位的深度对话。 👨‍⚕️ 本期嘉宾 Andrej Karpathy,人工智能领域最具影响力的思想者与教育者之一。他是 OpenAI 的联合创始人,曾在特斯拉主导 Autopilot 的 AI 研发,被广泛认为是“软件 2.0”理念的提出者。他创造的“vibe coding”一词,精准捕捉了 AI 辅助编程的文化变迁,引发了全球开发者圈的广泛讨论。目前他致力于 AI 教育,以清晰透彻的讲解著称。 ⏱️ 时间戳 00:00 开场 & 本期播客简介 01:39 嘉宾登场:OpenAI 联合创始人 Andrej Karpathy 从“落后感”到 Vibe Coding 02:18 作为顶尖程序员,为何突然感到从未如此落后? 03:13 Vibe Coding 的诞生:12月,一个决定性的转折点 软件三点零:编程的重新定义 03:54 软件1.0→2.0→3.0的演化:提示成为编程,上下文成为杠杆 04:44 实例一:用一段文字安装 OpenCL,告别膨胀的脚本 05:44 实例二:menu gen 的命运——一个简单的提示秒杀了整个应用 07:08 超越代码:AI 正在自动化广义的信息处理 可验证性:AI 自动化背后的引擎 09:39 锯齿状智能:为什么 AI 能解复杂方程却不会去洗车? 10:52 强化学习与验证奖励:模型能力的底层逻辑 12:50 给创业者的启发:在可验证的蓝海领域,你还有机会 从 Vibe Coding 到 Agent Engineering 14:31 Vibe Coding 抬高下限,Agent Engineering 拉高上限:十倍加速不是梦 15:21 智能体像“带刺的实习生”:如何驾驭其随机性与脆弱性 16:48 招聘革命:用“部署推特并抵御攻击”代替白板谜题 17:29 人类的领地:品味、判断与对“实习生”的监督 智能体的本质与世界的重构 20:46 动物还是幽灵?理解大语言模型的真实形态 22:04 把世界看作传感器与执行器:智能体原生时代 22:20 基础设施的“智能体优先”革命:别再让我手动部署 教育、理解与“不能外包的立场” 23:51 “你可以外包你的思考,但你不能外包你的立场” 24:23 为什么理解仍是瓶颈?用 AI 增强而非替代人类的认知 🌟 精彩内容 💡 “我作为程序员从未感到过如此落后” Andrej Karpathy 坦言,在去年12月,AI 编程工具的连贯性发生了质变,让他进入了“vibe coding”状态。他不再纠正代码,而是完全信任系统。“我已经好几个月没写过 HTML 或 JavaScript 了,都是 AI 在处理。”这种从怀疑到全盘接受的体验,定义了新一代编程文化的起点。 🛠️ 软件3.0:一行提示消灭一个应用 通过 menu gen 的例子,Andrej 揭示了软件3.0的可怕潜力。当他用复杂的开发流程做了一个菜单可视化应用后,却发现用 Gemini 的一个简单提示“用 Nana Banana 把这些东西覆盖到菜单上”就直接生成了最终图片,应用本身变得毫无必要。这让他惊呼:“我做的 menu gen 完全是多余的……那个应用根本不应该存在。”它标志着从编写代码到编写上下文的根本迁移。 🚀 可验证性:AI 的“锯齿状”真相 为什么顶尖模型能重构十万行代码,却会建议你走路去洗车?Andrej 用“可验证性”和强化学习训练机制解释了 AI 能力的参差不齐。他指出,模型在可被验证的领域(如数学、编程)表现超群,但在未经强化学习打磨的常识上则显得笨拙。理解这种锯齿状,是创业者选择 AI 应用方向的关键。 ❤️ 不能外包的立场 面对 AI 自动化一切的未来,Andrej 强调,人类最后的价值不在于计算,而在于判断。“有一条推文让我大为震撼:你可以外包你的思考,但你不能外包你的立场。”他认为,即使智能体再强大,理解仍是创作者的瓶颈,而用 AI 工具增强理解,才是保持航向的核心。 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

26分钟
3k+
1个月前
#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

#515. GPT-5、Claude 和 Gemini 的是如何训练与部署的

跨国串门儿计划

📝 本期播客简介 本期我们克隆了硅谷硬核科技播客《Dwarkesh Patel》How GPT-5, Claude, and Gemini are actually trained and served – Reiner Pope 嘉宾 Reiner Pope 是芯片初创公司 Maddox 的 CEO,更早之前曾在谷歌负责 TPU 架构设计。整期节目采用“黑板讲座”的形式,Reiner 从最基础的 roofline 模型出发,一步步推导出批次大小如何影响大模型推理的延迟与成本,揭示了“内存墙”为什么是上下文长度的真正枷锁。他还结合 Gemini、DeepSeek 等前沿模型的公开定价,反向推算出隐藏的技术架构,甚至连 KV 缓存存储在哪一层内存都能猜出来。对话后半段更跨界到密码学,探讨神经网络与密码协议在结构上的惊人相似。这是一堂 AI 基础设施的实战大师课,听完你会对“为什么 API 定价是这样”“为什么模型扩展变慢了”这些问题豁然开朗。 👨‍⚕️ 本期嘉宾 Reiner Pope,AI 芯片公司 Maddox 的创始人兼 CEO,曾在谷歌领导 TPU 架构设计,对分布式训练、推理系统和芯片设计有极其深厚的工程与研究积淀。他还是《Scaling》一书的作者。 ⏱️ 时间戳 开场与技术形式 00:00 Yikai 开场及节目介绍 01:26 Dwarkesh 介绍嘉宾与“黑板讲座”设置 Roofline 模型与批次大小的艺术 02:53 为什么要从“批次大小”开始?它对延迟和成本的决定性影响 04:33 批处理为什么能节省上千倍成本? 07:04 一张延迟图看懂内存时间与计算时间的平衡 10:25 稀疏注意力与最优批次大小的代数推导 12:00 单用户推理为什么贵?成本曲线揭示的无穷大起点 15:20 最优批次大小≈300×稀疏度,一个跨硬件稳定的常数 17:08 推理引擎的“火车模型”:每 20 毫秒固定发车 19:35 从每秒 12.8 万 token 反推前沿模型的多大用户量 21:38 增加稀疏度划算吗?《路由语言模型统一法则》告诉你答案 模型架构与硬件拓扑 24:15 混合专家层如何分片到 GPU 机架上 27:47 机架内的 NVLink 高速网络与机架间慢八倍的“瓶颈” 32:33 为什么 GPT‑4 之后模型规模扩展变慢了?不是计算,是内存容量在等机架 35:40 流水线并行真的省了内存吗?通信模式的代数拆解 39:45 流水线气泡:训练中的微批次权衡与推理中的“不费脑”设计 内存墙、过度训练与规模法则 45:12 内存容量真的过剩吗?为何大家还在砸钱买 HBM? 49:03 为什么流水线并行对 KV 缓存无效?内存容量的死结 52:00 过度训练 100 倍?从 Chinchilla 最优到真实世界的偏离 58:23 预训练、强化学习与推理 token 的最优成本分配 01:04:24 惊人反推:预训练数据量其实约等于模型整个生命周期的推理 token 数 从 API 定价反推技术架构 01:05:26 Gemini 长上下文加价 50%的硬件解释 01:09:50 价格如何泄露秘密:每个 token 的字节数、KV 缓存大小都能算出来 01:12:47 输出 token 为什么比输入贵 5 倍?解码与预填充的内存带宽真相 01:14:51 KV 缓存命中便宜 10 倍:HBM、DDR 与机械硬盘的角色分配 01:22:00 5 分钟 vs 1 小时:定价时长正好对应闪存与机械硬盘的“排空时间” 交叉学科火花 01:24:17 神经网络与密码学:同样的“混合”结构,相反的训练目标 01:27:06 对抗攻击与后门:神经网络里的“雪崩效应” 01:28:45 从密码学借来的可逆网络:用计算换内存,反向传播不用存激活值 结尾 01:30:50 结语与致谢 🌟 精彩内容 💡 “火车模型”:理解推理延迟的钥匙 Reiner 把大模型推理比作固定时刻表的火车:每 20 毫秒发车一次,能上多少用户就上多少。这直接解释了为什么多付钱可以得到更快流式输出的“快速模式”,以及为什么存在“慢速模式”都无法突破的成本下限。 🛠️ 内存墙:限制上下文长度的真正元凶 “内存墙没有真正的解决方案”,Reiner 直言。通过 roofline 分析,他展示了为什么超出 20 万 token 左右后成本会急剧上升——不是因为算力不够,而是因为内存带宽被 KV 缓存吃满。这也是 Gemini 等模型长上下文定价加价 50%的根本原因。 🚀 用公开价格反推绝密架构 Reiner 现场演示了如何通过 API 每百万 token 的定价,推导出模型中每 token 的 KV 缓存字节数(约 2KB)、注意力头的维度,甚至推断出缓存是放在 HBM、DDR 还是机械硬盘里。一堂震撼的技术情报分析课。 💻 批次大小:从千倍成本差到硬件常数 如果不做批处理,单用户推理的成本可能比批处理高上千倍。而最优批次大小竟然可以通过一个简单的硬件常数(算力 / 内存带宽)乘以模型稀疏度直接估算出来,这个常数在不同 GPU 世代间保持惊人稳定。 ❤️ 密码学与神经网络:同构的两面 神经网络通过梯度下降学习结构,密码学却拼命制造随机性的“雪崩效应”。Reiner 指出,这恰恰是同一个混合架构的两个极端用途,而可逆网络正是从密码学中借来、用于节省训练内存的巧妙设计。 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

92分钟
2k+
1个月前
#514.DeepMind创始人Demis Hassabis谈AGI、AlphaFold与科学发现的未来

#514.DeepMind创始人Demis Hassabis谈AGI、AlphaFold与科学发现的未来

跨国串门儿计划

📝 本期播客简介 本期我们克隆的是 Y Combinator 官方播客的一期深度对谈。Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough 主持人 Gary 是 YC 的 CEO,嘉宾 Demis Hassabis 是 DeepMind 的联合创始人兼 CEO,他因破解生物学上长达五十年的蛋白质结构预测难题,在去年获得了诺贝尔化学奖。 在这期节目里,你将听到 Demis Hassabis 从国际象棋神童、游戏设计师到诺奖得主的传奇经历,以及他对通用人工智能的终极思考。对话深入探讨了当前 AI 系统缺失的关键组件——持续学习、长期推理和记忆;他独家披露了 DeepMind 如何将其在 AlphaGo 上验证过的强化学习和搜索哲学,融入当今最先进的 Gemini 大模型。此外,他还分享了小模型的“蒸馏”艺术、智能体的真实进展,以及 AI 将在未来五年如何彻底变革材料科学、药物发现等基础科学领域。对于每一位正在科技前沿探索的创始人,Demis 给出了一条至关重要的建议:在 AGI 可能于途中降临的时代,你该如何预判技术走向,构建真正具有防御性的深度科技公司。 👨‍⚕️ 本期嘉宾 Demis Hassabis,Google DeepMind 联合创始人兼 CEO,2024年诺贝尔化学奖得主。他从小是国际象棋神童,17岁便设计了畅销游戏《主题公园》,后来获得认知神经科学博士学位,并于2010年创立 DeepMind,致力于“解决智能问题”。他领导的团队开发了击败世界围棋冠军的 AlphaGo 和破解蛋白质结构预测难题的 AlphaFold,后者已被全球超过三百万研究人员使用,被誉为 AI 加速科学发现的里程碑。目前,他正带领团队打造 Gemini 模型,并继续朝着通用人工智能的宏大目标前进。 ⏱️ 时间戳 开场与嘉宾传奇 00:00 开场:Y Combinator播客简介与Demis Hassabis的非凡成就 03:30 Demis的职业生涯回顾:从棋坛神童到认知神经科学博士,再到DeepMind创立 05:00 AlphaGo与AlphaFold:两个改变世界对AI认知的里程碑 06:30 诺奖背后:免费开放AlphaFold,赋能全球每一位科学家 AGI架构的未来拼图 07:15 当前范式的局限:大模型还缺什么?持续学习、长期推理与记忆 09:45 “梦境循环”与海马体:神经科学启发下的经验重放技术 12:30 上下文窗口是终极方案吗?工作记忆的蛮力模拟与信息检索成本 15:00 生物大脑不是机器:完美记忆的承诺与逻辑成本困境 从AlphaGo到Gemini:强化学习的回归 17:45 智能体的原始基因:Atari游戏与AlphaGo如何定义自主系统 19:45 “想太多”的模型:在思维链中如何避免循环错误 22:00 强化学习被低估了吗?将游戏策略泛化到世界模型 24:00 AlphaZero的旧思想与当今基础模型的新结合 超高效的小模型:蒸馏的艺术 26:30 从庞大前沿模型到轻量级Flash:蒸馏技术的极限在哪? 28:30 为何必须极致高效:服务数十亿用户的谷歌生态与低延迟刚需 30:30 速度优于绝对能力:迭代效率如何弥补5%的能力差距 32:00 隐私与安全:设备端小模型的战略意义 智能体时代的黎明 35:00 智能体真实能力:到底是炒作还是真正的起步? 37:00 人机协作:为什么还没出现“AI造出的爆款游戏”? 38:45 失踪的创造火花:一个能发明“围棋”的系统何时到来? 40:15 工具的灵魂:人类品味与创造力的不可或缺 多模态、开源与设备端模型 43:30 从Gemini到Gemma:开放科学基因与开源模型战略 46:00 为何开放边缘模型?部署风险与安卓、机器人的全球布局 48:00 多模态先见:如何让AI理解物理世界并遥遥领先 AI与基础科学的下一个突破口 51:00 AlphaFold的范式:组合搜索空间、清晰目标函数与合成数据 53:30 迈向虚拟细胞:我们需要什么样的活细胞成像技术? 56:00 未来五年最具变革潜力的科学领域:材料、气候与数学 58:00 根节点问题:如何用AI解锁全新科学发现的分支 给深科技创始人的忠告 01:00:30 预测AI走向与跨学科结合:如何构建不被基础模型吞没的护城河 01:03:00 拥抱深度科技:真正有价值的事从不简单,相信你的另类视角 01:06:30 为自己热爱的事业而战:即使技术未成,你也会找到继续的路 01:08:30 终极建议:在AGI终点途中启动你的深科技征程 终极挑战:科学推理与AI的创造力 01:10:30 系统能否自己提出“黎曼假设”?超越模式匹配的科学推理 01:13:00 “爱因斯坦测试”:训练截止1901年的模型,它会发现狭义相对论吗? 01:16:00 通用工具与专用系统的未来:为何AGI不应是一个巨无霸大脑 🌟 精彩内容 💡 AGI的最终架构:还缺哪几块拼图? Demis 明确指出,尽管当前的大规模预训练、RLHF和思维链范式已非常强大,但要实现完全的通用智能,我们还必须攻克持续学习、长期推理和更高效稳定的记忆机制。“我觉得现有的组件会是AGI最终架构的一部分,但可能还需要一两个重大的想法去突破。” 🧠 从神经科学借来的AI灵感 Demis 结合其认知神经科学的博士背景,解释了DeepMind早期突破的核心概念——“经验重放”如何源于对大脑海马体在睡眠中巩固记忆的研究。这一在2013年被用于Atari游戏AI DQN的 “远古时期”突破,至今仍对克服模型的“无状态”难题具有深刻启发。 🚀 小模型的大智慧与蒸馏的极限 当被问及小模型的聪明程度是否有极限时,Demis 乐观地表示目前远未触及信息密度的天花板。“我们的一款前沿模型发布半年到一年后,你就能在那种非常小、几乎能跑在设备端的模型里看到同样的能力。” 这不仅关乎成本,更关乎速度与隐私,他认为设备端高效模型加云端强大模型协调将是理想的终局。 ♟️ 当AI“想太多”:从国际象棋的错误说开去 Demis 分享了与Gemini下棋的有趣观察:模型有时会意识到某步是臭棋,但因找不到更好的选择而依然走出那一步。“在一个精确的推理系统里,你根本不应该看到这种事……我总觉得它对自己的思考过程缺少一种内省。” 这反映了当前系统推理能力的“锯齿状”特征。 🔬 科学发现的下一个“AlphaFold时刻” Demis 提出了他所寻找的科学突破范式:一个巨大的组合搜索空间、一个明确定义的目标函数、以及足够的数据或合成数据模拟器。他预测在材料科学、药物发现等领域,我们正处于类似AlphaFold爆发前的“临门一脚”时刻,并给出了“十年内实现完整虚拟细胞”的具体时间线。 💎 创始人的黄金法则:预判AI,拥抱深科技 对于创业者,Demis 的建议直击要害:“你必须预判 AI 技术的发展走向。” 他认为,将AI与某个深度技术领域(如材料、医药)相结合的跨学科团队,将最具防御性,不会轻易被基础模型的下一次更新淹没。此外,他鼓励所有人将生命投入到“如果你不做就不会有人去推动、真正能改变世界的事情”上。 🌐 播客信息补充 翻译克隆自:Y Combinator 官方播客 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

34分钟
1k+
1个月前
#513.纳瓦尔谈 Vibe Coding

#513.纳瓦尔谈 Vibe Coding

跨国串门儿计划

📝 本期播客简介 本期我们克隆的是知名英文播客《Naval》 On Vibe Coding ,由硅谷传奇投资人 Naval Ravikant 与联合主持人 Nivi 共同主持。 他们在这场对话中深入探讨了 vibe coding——利用 AI 直接编写代码、甚至一句话生成个性化应用的新潮流。Naval 从自己沉迷于用 AI 构建个人应用商店的亲身经历出发,剖析了 AI 编程智能体如何降低创造门槛,并大胆预言:纯软件已不再适合风险投资,而苹果在 AI 上的落后将导致其统治地位终结。这不仅是技术趋势的解读,更是对未来个人创造力、创业格局和科技巨头命运的深刻洞察。 在这期节目中,你将听到 Naval 如何仅凭自然语言指挥 AI 生成完全定制的健身应用,体验“比打电子游戏更上瘾”的编程快感;他将首次详细对比 Claude、ChatGPT、Gemini 和 Grok 四大前沿模型的使用体验;更重要的是,他将揭示 AI 编程对风险投资、软件创业乃至苹果公司市值的深远冲击。这是一场充满洞见的思维盛宴。 👨‍⚕️ 本期嘉宾 Naval Ravikant,硅谷著名天使投资人、企业家与思想家。他是 AngelList 的联合创始人,早期投资了包括 Uber、Twitter 等在内的众多明星公司。他以其深刻的第一性原理思考闻名于世,播客《Naval》在全球拥有大量忠实听众。 Nivi,Naval 的常规联合主持人,多次与 Naval 搭档探讨科技、投资与人生哲学,以犀利的提问和见解著称。 ⏱️ 时间戳 开场介绍 00:00 节目介绍:跨国串门计划,AI 声纹克隆技术跨越语言障碍 00:39 本期克隆《Naval》播客,嘉宾 Naval Ravikant 简介 01:15 精彩预告:vibe coding 比游戏更好玩,苹果统治地位终结 爱上 Vibe Coding:从零到个人应用商店 01:38 Nivi 开场,抛出 vibe coding 话题 02:00 拐点到来:Claude Opus 4.5 让 AI 编程智能体变得可靠 03:06 上瘾的开始:AI 真的能干活了,编程启动门槛骤降 04:01 智能体的秘密:长期存活在 Unix 环境中,像有初级程序员随时待命 05:34 个人应用商店诞生:一句话生成应用,直接装到 iPhone 上 08:24 最难的是清晰愿景:讲述重做社交应用 Air Chat 的缘起 无妥协创作:AI 编程的核心魔力 09:37 像自动驾驶一样无拘无束,再也不用迁就任何人 10:01 原型纯粹性:完全忠实于创造者愿景,可能催生更多《我的世界》式作品 12:47 比电子游戏更上瘾:真实世界的反馈闭环,让人每晚沉浸 纯软件已死?对创业与风投的冲击 11:49 断言:纯软件不可投资,风投应转向硬件、网络效应和 AI 模型 12:00 两大原因:AI 让软件拼凑太过容易,且智能体进步足以构建可扩展软件 13:00 个人软件创作者的复兴,但“职业”概念正在松动 AI 编程智能体的现状:模型对比与局限性 14:06 AI 纠错能力:从思考到协作,智能体如何学习 15:09 锯齿状智能:多智能体协作为何难以奏效 16:53 四大模型横向对比:Claude 善沟通,ChatGPT 最全面,Gemini 数据强,Grok 讲真话 18:05 群体思维与讨好倾向:模型缺乏真正主见,需人类引导 19:29 上下文窗口瓶颈:复杂项目下模型开始“失忆”,出权宜之计 21:24 未来可期:一次性生成复杂应用指日可待 苹果的危机:AI 如何终结 App Store 模式 23:23 对话式智能体崛起,手机应用变得可有可无 26:08 最大战略错误:苹果放弃 AI,统治地位开始终结 未来软件世界:自动修复与一人公司 27:00 自动修复 bug 系统:AI 每日审查并修复,人类只需把关 28:27 一人公司的时代:两三个人即可服务数千万用户,赚取数十亿美元 🌟 精彩内容 💡 Vibe Coding:比游戏更上瘾的创造体验 Naval 详细描述了 vibe coding 如何让他重拾编程乐趣。只需自然语言描述,AI 智能体就能生成功能完整的应用,并直接推送到个人手机。他坦言:“Vibe coding 比打电子游戏更好玩,它更有生产力,更有建设性,有更好的反馈循环。”这种即时反馈和零妥协的自由度,让 Naval 每晚都沉浸其中,甚至从社交媒体上完全消失。 🛠️ 四大 AI 编程模型横向测评 Naval 分享了他日常使用四款前沿模型的真实体验:Claude 善于匹配用户水平、沟通最顺畅;ChatGPT 仍是综合能力最强的“老大哥”;Gemini 凭借谷歌索引在搜索和数据获取上优势明显;Grok 则最少审查、敢说真话,且在科学难题上表现出色。他还揭示了模型间的群体思维和讨好倾向,提醒用户仍需充当“品味引领者”,亲自介入架构与设计。 💻 纯软件不可投资:风投行业的警钟 Naval 抛出重磅观点:“纯软件不可投资,我就把话撂这儿了。”他认为 AI 让软件的供给端急剧膨胀,单纯靠代码质量的优势已无法形成护城河。风险投资必须转向硬件、网络效应或基础 AI 模型。与此同时,这也为个人创作者打开了新时代——只需一两人就能做出服务数千万用户的软件公司,Notch 和中本聪式的传奇将更为常见。 🍏 苹果放弃 AI:十年最大战略错误 Naval 尖锐指出,随着 AI 智能体成为人机交互的核心,手机应用层的价值将大幅削弱,苹果软硬一体的优势会逐步瓦解。他直言:“我认为苹果放弃 AI,将成为这十年科技行业最大的战略错误,这也是苹果统治地位终结的开始。”他预言苹果市值将收缩,而新的巨头将从 AI 原生体验中崛起。 🌐 播客信息补充 翻译克隆自:On Vibe Coding 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

29分钟
2k+
2个月前
#512.十亿月活背后的创新与焦虑:Snap CEO Evan Spiegel谈分发护城河、AR野心与组织革命

#512.十亿月活背后的创新与焦虑:Snap CEO Evan Spiegel谈分发护城河、AR野心与组织革命

跨国串门儿计划

🎙️ 📝 本期播客简介 本期我们克隆了:硅谷头部产品播客《Lenny's Podcast》 How to build a defensible company in the AI era | Evan Spiegel (Snapchat CEO) 本期嘉宾 Evan Spiegel 是 Snap 的联合创始人兼 CEO。十五年前他打造了 Snapchat,如今月活近十亿,是极少数能够持续创新的消费社交产品掌舵人之一。在这期节目中,你将听到 Evan 首次系统阐述:为什么在 AI 时代,分发成为比产品市场契合度更关键的护城河;Snapchat 如何连续十五年被抄袭却依然引领创新;他对 AR 眼镜这一下一代计算平台的执着与思考;以及他如何通过极扁平的创新组织,在巨头林立中持续推出 Stories、Spectacles 等改变规则的产品。这不仅是关于 Snapchat 生存与演化的深度复盘,更是一堂关于创始人如何平衡创新与规模、理想与现实的领导力大师课。 👨‍💼 本期嘉宾 Evan Spiegel,Snap 联合创始人兼 CEO。他于 2011 年与 Bobby Murphy 共同创建了 Snapchat,此后十五年一直领导公司创新,推出 Stories、AR 镜头、Spectacles 眼镜等里程碑产品。Snapchat 目前月活用户超过 10 亿,年营收超 60 亿美元,是全球最成功的社交消费平台之一。 ⏱️ 时间戳 00:00 开场 & 播客简介 消费社交的生死线:为什么分发比产品市场契合度更重要 01:37 为何 15 年来难有新社交产品成功?TikTok 和 Threads 的例外 03:59 分发:消费科技里最被低估的一课 05:23 砸钱砸出生态:TikTok 如何用数十亿美元解决分发 05:57 产品市场契合度之外,创始人该思考什么 06:24 亲密朋友的网络价值:Snapchat 的早期增长密码 Snapchat 的“原创者诅咒”:被抄袭与反超 08:31 从 Stories 到 AR 眼镜:Snapchat 被抄的历史清单 09:11 Snapchat+ 订阅被 Meta 抄袭:连名字都一样 09:39 被抄是一种福气?Evan 的反思与策略 09:55 十五年前就明白:软件本身不是护城河 10:12 构建生态系统:让抄袭者难以复制 硬件与 AR 眼镜:为下一代计算平台播下种子 11:41 硬件投入的初衷:把人们从孤独的屏幕中拉回来 12:02 Spectacles 到 Specs:十年的 AR 眼镜演进 14:10 新电脑形态:解放双手,连接真实世界 15:31 AR 不是通知屏幕:Evan 对人机交互的思考 构建创新组织:从《Loonshots》到 Snap 的实践 16:15 《Loonshots》的启示:大公司与小团队如何共存 19:14 设计团队作为创新引擎:9-12 人的扁平先锋队 19:40 没有层级的设计室:从第一天就要展示作品 22:05 想有好点子,先有大量点子:速度压倒完美 设计驱动一切:速度、评审与用户共情 22:30 该不该和用户交谈?Evan 的共情方法论 23:34 Stories 诞生记:倾听但不盲从用户需求的经典案例 26:39 截图检测:一个早期功能如何引爆增长 28:12 等了 200 名员工才招 PM:设计团队的产品经理角色 30:39 AI 时代:设计师终于被正名了? 32:00 设计是“瓶颈”,也是品质的保障 AI 如何重塑产品团队:设计师写代码、智能体接管工作流 34:53 招聘设计师:只看作品集,不看履历 41:03 设计师写代码:从好奇到提交 PR 42:23 十亿用户规模的 AI 应用:自动化代码审查与 bug 修复 44:23 智能体改变公司运作:从产品想法到市场推广的自动化 50:52 Evan 的 AI 副驾驶:如何用 Glean 掌握整个公司的脉搏 创始人的进化:从做产品到当“首席解释官” 43:05 十五年 CEO 角色的蜕变:从回复客户邮件到战略 44:10 沟通是最核心的技能:克林顿的“首席解释官”之说 45:13 爱上冲突:从抵触全员大会到享受尖锐问题 Snap 的“关键时刻”与未来 47:21 为什么今年被称为“坩埚时刻”?十亿用户后的盈利压力与眼镜生意 48:40 “中间的小孩”:Snap 在巨头夹缝中的定位与挑战 49:50 家庭屏幕政策:四个男孩的不同数字生活 快问快答 55:08 反共识观点:人性远比技术重要,AI 推广必有社会反弹 56:43 推荐书籍:《苹果前五十年的故事》与《世界末日只是开始》 57:31 最近最爱的电影:《Marty Supreme》 58:02 重新迷上宝可梦:与孩子一起发现 IP 魅力 58:28 人生格言:你有两只耳朵,一张嘴巴——按比例使用它们 58:40 最爱的镜头:呕吐彩虹;最不爱的:换脸 结尾 59:34 让计算更具人情味:Evan 的临别寄语 🌟 精彩内容 💡 分发才是新护城河 Evan Spiegel 指出,在 AI 让软件构建门槛大幅降低的未来,分发将成为最难被复制的竞争壁垒。他以 TikTok 砸巨资补贴市场两端为例,说明解决分发问题比单纯寻找产品市场契合度更重要。这一观点对当下消费创业者极具冲击力。 “消费者科技行业里,太多人在关注产品市场契合度。但人们花在思考分发、搞懂分发上的时间,远远不够。” 🛡️ 十五年前就悟到的真理:软件本身不是护城河 Evan 回顾 Snapchat 被无数次抄袭的历史,坦承正是意识到软件功能极易复制,团队才早年押注生态建设和硬件。这一反思与当下 AI 时代“软件正在被商品化”的共识不谋而合,也解释了 Snap 为何在 AR 眼镜上投入十年之久。 “十五年前,我们本质上就认识到,软件本身不是护城河。而这一点,今天所有人正在通过 AI 重新发现。” 👓 AR 眼镜:为被屏幕隔离的人们重新连接 Evan 分享了他对计算设备演进的深刻思考:手机让我们孤独地盯着屏幕,而 AR 眼镜能将数字体验锚定在真实世界,让人们共同互动。他透露 Spectacles 的演进路线,并认为现在正是推出这种“新电脑”的最佳时机。 “我注意到电脑——以及今天的手机——有一个问题:它们在很多方面让我们彼此隔离……所以,我觉得这里有一个巨大的机会,去构建那种真正能把我们聚在一起、让我们扎根于现实世界的技术。” 🏢 从《Loonshots》学到的创新组织学 Evan 将《Loonshots》一书奉为圭臬,详细拆解 Snap 内部如何平衡 10 亿用户的稳定运营与极小型设计团队的疯狂创新。他描述了一种“双组织”结构:让纯粹扁平、高速试错的团队与纪律严明的大部队和谐共生。领导者的任务就是管理好双方的紧张关系。 🎨 设计评审的速度哲学:想要好点子,先有大量点子 Evan 介绍他每周与设计团队碰面数小时,看到上百个想法,鼓励设计师从入职第一天就展示作品。他强调,只有当点子不再被视为珍宝时,真正的创造力才会爆发。这一做法或许能启发所有创意驱动的团队。 “想出一个好点子的前提,是你得先有大量的点子。” 💬 倾听但不盲从:Stories 功能的诞生故事 Evan 生动还原了 Stories 如何从用户“给我个群发按钮”的请求中,演变成一个按时间线、阅后即焚、零压力的分享形式。这个案例完美诠释了“共情用户,再给出意想不到的解决方案”的产品哲学。 “我们从用户那里听到的所有这些洞察,对产品设计过程产生了巨大的影响。但我们并没有完全按照他们要求的来做。我们是先共情,然后提出了全新的、完全不一样的东西。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

61分钟
1k+
2个月前
#511.小米的野望:小米CFO详解AI与全球化战略

#511.小米的野望:小米CFO详解AI与全球化战略

跨国串门儿计划

📝 本期播客简介 本期我们克隆了挪威主权财富基金CEO Nicolai Tangen主持的《好公司相伴》Xiaomi CFO: From Smartphones to EVs, Speed to Market and AI | Podcast | In Good Company 他邀请了小米集团首席财务官Alain Lam,深入探讨小米从手机起步到构建“人车家全生态”的扩张历程,以及AI、智能汽车、人形机器人和全球化战略。Alain分享了小米如何用不到三年时间造出第一款车,为什么集中十倍资源只做一款车,以及AI如何在制造、销售、研发中落地。他还透露了创始人雷军的管理哲学——亲自试驾150款车、考取赛车执照,并阐述了对“中国速度”、欧洲电动化差距及未来物理世界AI的独到见解。 👨‍💼 本期嘉宾 Alain Lam,小米集团首席财务官。他拥有丰富的国际金融与战略经验,在小米负责财务、战略投资及全球业务拓展,深度参与小米从手机到智能汽车的跨界布局,是公司核心管理团队的关键成员。 ⏱️ 时间戳 00:00 开场 & 播客简介 小米的创业基因与手机业务 00:01:56 小米简介:一家年营收超4500亿元的十六岁年轻公司 00:03:15 从MIUI到小米1:用一年时间打造第一款智能手机 00:04:22 本土供应链与“高品质、诚实价格”的初心 00:05:26 小米17的创新:双面屏幕的突破性设计 00:06:00 智能家居生态:从空调、洗衣机到智能门锁的万物互联 造车:从手机思维到智能电动车 00:07:19 2021年决定造车,不到三年推出首款车型 00:08:23 集中十倍资源,只做一款车的产品哲学 00:09:17 30分钟卖5万辆:未试驾即下单的忠诚用户 00:10:44 手机与造车的异同:软件定义硬件与供应链复用 00:12:01 欧洲电动车落后在哪?小米把焦点放在“智能” 00:13:51 福特CEO开SU7:“开了六个月就甩不掉了” 00:14:05 电动车市场未来:渗透率持续上升,欧美收缩只是暂时 AI、机器人与技术愿景 00:15:32 人形机器人:2019年开始布局,先用于自家工厂提效 00:16:52 灵巧手的进化:自由度、散热与接近真人手的尺寸 00:18:13 AI在小米的全方位应用:编程、销售预测、压铸检测 00:19:47 小米自研大语言模型:开源、低成本与排行榜高分 00:21:58 未来愿景:物理世界的AI与全球十亿台设备互联 创始人、文化与全球化 00:22:53 雷军:亲自试驾150款车、考取赛车执照的产品狂人 00:23:59 工作文化:“既要努力干活,也要聪明地干活” 00:25:26 “中国速度”的秘诀:成熟供应链、前沿创新与超长投入 00:26:21 欧洲计划:明年出口电动汽车,设立慕尼黑研发中心 个人洞见与建议 00:27:18 CFO的放松之道:阅读商业历史、跑马拉松与享受美食 00:29:24 给年轻人的建议:理解趋势,99%的问题已有现成答案 00:30:31 结语与感谢 🌟 精彩内容 💡 从手机到全生态的扩张逻辑 Alain Lam回顾了小米16年的发展历程,从MIUI操作系统起家,到推出小米1、布局智能家居,再到汽车和机器人,始终秉持“高品质、诚实价格”的理念。目前小米已形成“人车家全生态”,拥有全球超十亿台联网设备。 “我们想给用户提供高品质的解决方案,但价格要实惠。” 🚗 十倍投入,集中精力造一款车 面对造车新战场,小米没有分散尝试,而是用超3000人的研发团队、十倍于行业平均的投入,死磕第一款车SU7。这种做法让小米一举打破市场,创造了发布即爆款的纪录。 “与其朝多个方向分散、做很多款车,不如把所有精力集中在一款车上。” 🤖 人形机器人与物理AI的未来 小米从2019年就开始布局人形机器人,目前主要用于内部制造场景,以提升效率。Alain认为,物理世界的数据仍稀缺,而小米庞大的硬件生态将成为训练物理AI的关键,未来可能会彻底重塑制造流程。 “我们把焦点放在‘智能’上,而不是仅仅盯着电动。” 🧠 雷军的管理密码:做产品的狂热信徒 雷军不仅是一位远见者,更是极致的“产品人”。他亲自试驾150多款车、考取职业赛车执照,并要求管理层深入体验产品——Alain在首款车发布前就开了3000公里。这种“热爱产品”的文化深深塑造了小米的工作方式。 “你必须了解产品,必须爱你的产品,你才能做这个业务。” 🌍 给年轻人的成长哲学 Alain建议年轻人保持学习兴趣,跟上AI等前沿趋势,同时多读商业历史,从成功和失败中寻找答案。他分享了一句古话:“百分之九十九的问题,其实都已经有现成的答案了,你只需要把它找出来。”而AI工具或许能加速这一过程。 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

31分钟
2k+
2个月前
#510.AI Coding For Real Engineers:软件工程基本功如何让AI编程事半功倍

#510.AI Coding For Real Engineers:软件工程基本功如何让AI编程事半功倍

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名开发者 Matt Pocock 在 AI Engineer 大会上的深度工作坊。Full Walkthrough: Workflow for AI Coding from Planning to Production — Matt Pocock (@mattpocockuk ) Matt 是 TypeScript 专家、在线教育平台 AI Hero 的创始人,过去半年他全身心探索如何将软件工程的基本功与 AI 工具高效结合。在这期播客中,你将听到 Matt 如何通过严谨的软件工程实践,让 AI 编程不再是“氛围编程”,而是可控制、可预测、高质量的工程流程。从理解大语言模型的局限性,到运用“追问”技巧对齐需求,再到将任务拆分、测试驱动开发、代码审查,Matt 提供了一套完整的工作流,帮助你真正驾驭 AI,而不是被 AI 驾驭。 👨‍🏫 本期嘉宾 Matt Pocock,TypeScript 专家,在线教育与开发工具 AI Hero 创始人。他以深刻的软件架构理解和丰富的 TypeScript 教学经验闻名,长期致力于帮助开发者提升代码质量与工程效率。 ⏱️ 时间戳 开场 & 播客简介 00:00 主播一恺介绍节目与本期克隆的AI编程工作坊 00:37 Matt Pocock与原话亮点:软件工程基本功与AI的化学反应 软件工程基本功:AI时代的基石 01:31 Matt开场:AI是新范式,但软件工程基本功同样关键 02:41 现场调查:多数开发者每天用AI编程,但也常被AI气疯 大语言模型的“阿喀琉斯之踵” 03:57 聪明区与蠢笨区:为什么上下文越长AI越蠢? 06:33 多阶段计划:如何拆分大任务避开蠢笨区 07:54 记忆碎片:LLM的遗忘特性与上下文重置 09:20 压缩 vs 清空:哪种上下文管理方式更好? 规划与对齐:让AI听懂你的想法 11:58 练习项目:为课程平台添加游戏化功能 12:29 “追问我”技巧:远离“规格直接转代码”的误区 14:55 实战grill me技能:与AI进行深度盘问,达成共同理解 18:20 子代理的作用:隔离上下文,降低主窗口压力 21:31 问答环节:如何将追问技巧融入团队协作 从想法到产品需求文档(PRD) 26:48 盘问结束后,为什么需要一份PRD来记录设计概念? 28:09 自动生成PRD:用户故事、实现决策与模块划分 31:34 为什么不读PRD?信任对齐过程,把时间花在QA上 任务拆分:看板、垂直切片与并行开发 34:28 看板方法:将PRD拆成独立任务,理清阻塞关系 36:38 垂直切片与曳光弹开发:避免AI“水平编码”,尽早获得反馈 43:38 创建任务依赖图,规划多智能体并行执行 实现阶段:自动智能体与测试驱动开发 45:45 白班与夜班:人类完成规划,AI火力全开自动实现 46:54 Ralph全自动智能体循环:任务优先级与反馈回路 50:31 问答:如何管理AI产出的大量代码审查? 56:50 AI对AI的QA:让AI自审代码,但记得清空上下文 58:15 测试驱动开发(TDD):从AI身上榨取最大价值的关键 代码审查、规范与架构优化 01:00:32 人工QA:重新注入人的品味,避免产出“渣滓” 01:04:18 浅模块 vs 深模块:好代码库让AI更聪明 01:09:53 改善代码库架构技能:扫描耦合,创建可测试的深模块 01:11:47 文档腐烂:为什么PRD完成就应丢掉? 01:15:42 编码规范策略:对实现者“拉取”,对审查者“推送” 01:17:15 Sandcastle:跨智能体并行开发的TypeScript框架 总结与建议 01:20:41 完整工作流回顾:想法→对齐→PRD→看板→实现→审查 01:22:19 核心建议:多读经典软件工程书籍,它是一座纯金矿 🌟 精彩内容 💡 软件工程基本功是AI时代的放大器 Matt强调,AI是新范式,但模块化、测试、代码审查这些基本功在与AI协作时更为重要。糟糕的代码库造出糟糕的智能体,优秀的架构才能让AI发挥威力。 💡 聪明区与蠢笨区:LLM的核心约束 理解大语言模型的“注意力衰减”是高效使用AI编程的前提。上下文超过一定长度后,模型性能急剧下降,因此必须将任务拆小,避免一脚踩进蠢笨区。 💡 “追问我”技巧:与AI深度对齐的秘密武器 Matt独创的“grill me”技能,通过不断向开发者提问的方式,强迫AI与人在设计概念上达成一致。这远比直接产出计划文档更能确保后续实现不跑偏。 💡 TDD:让AI写出高质量代码的钥匙 测试驱动开发(红-绿-重构)是让AI编程产生价值的绝对关键。它提供了即时反馈循环,避免AI盲目编码,并显著提升代码库的测试覆盖率。 💡 垂直切片与深模块:设计AI友好的系统 AI倾向于一层一层水平编码,导致迟迟无法集成测试。采用垂直切片(曳光弹)和深模块设计,能让人和AI在开发早期就获得完整反馈,大幅提升效率。 💡 人机协作的终极工作流 Matt分享了一套完整打法:人工负责规划和需求对齐,生成PRD与看板任务;然后交给AI自动实现;最后人工进行QA和审查。这套流程将AI的效率与人的品味完美结合。 🌐 播客信息补充 翻译克隆自: 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

83分钟
3k+
2个月前
#509.前字节研究员深度访谈:中国AI的真实差距、刷榜文化与Agent新赛道

#509.前字节研究员深度访谈:中国AI的真实差距、刷榜文化与Agent新赛道

跨国串门儿计划

📝 本期播客简介 本期我们克隆了播客《Into Asia》的一期深度对谈A Year Inside ByteDance's AI Lab 【编者述:该内容存在争议,x 上有评论认为该研究者并未接触到字节AI 的核心项目,仅作为信息和视角补充】 主持人 Cheche 与北京大学助理教授、前字节跳动研究员 Chu Chu 坦诚交流了中国人工智能领域的竞争与挑战。Chu Chu 曾深度参与大语言模型的研发,对中美 AI 差距有着一线观察。在节目里,他揭示了中国 AI 公司内部刷榜文化的真相,分析了芯片禁令下数据蒸馏的无奈,并尖锐指出中美 AI 差距其实正在拉大。从字节跳动的 IMO 数学竞赛项目,到北大推理效率算法的新方向,再到具身智能与 AI Agent 的中国机会,这场对话带来了一位圈内人最真实的反思与预判。 👨‍🔬 本期嘉宾 Chu Chu,北京大学助理教授,前字节跳动 Seed 部门研究员,加州大学洛杉矶分校(UCLA)博士。他曾先后在北京通用人工智能研究院(通院)和字节跳动工作,亲历了中国大语言模型从追赶 GPT-4o 到被 DeepSeek 冲击的全过程,目前专注于 AI 推理效率与具身智能的研究。 ⏱️ 时间戳 00:00 开场 & 节目简介 嘉宾背景与 AI 之路 01:33 从吴恩达课程到 UCLA 博士 03:10 跟随朱松纯归国:数据驱动与规模假设的争论 04:12 在通院的日子:ChatGPT 如何改变 AI 研究格局 05:51 加入字节跳动:SEED 的诞生与 DeepSeek 的震撼 字节的 AI 战场:刷榜、资源与隐形压力 07:23 “我们以为追上了 GPT-4o,直到 DeepSeek 出现” 08:07 形式化数学与 IMO 金牌项目:公关还是科研? 09:35 SEED 内部结构:LLM、VLM 与数学组的分工 11:04 刷榜文化:基准分数如何定义你的成败 12:35 午休两小时、九小时工作制:字节 AI 研究员的一天 14:11 从银牌到交付:当研究兴趣被工程琐事消磨 17:16 谷歌三个月迭代一轮,我们要半年:速度差距的背后 18:16 特供版 H20、禁运前抢购的 H100:字节的芯片家底 19:43 国产芯片为什么训练用不上? 21:14 追赶者缺乏创新:中美差距真的在缩小吗? 差距拉大的本质:蒸馏、数据与基础设施 21:57 Claude Code 让我不想再招博士生:编程智能体的震撼 22:48 用户反馈循环:美国模型的真正护城河 24:25 离开字节的原因:大厂 LLM 工程其实很无聊 26:04 北大新方向:推理效率提升 5%,就能省下天量成本 27:50 捷径的代价:中国公司为何沉迷数据蒸馏? 29:01 什么是蒸馏?用 GPT 的答案训练自己的模型 30:06 AGI 信仰与现实:智能体如何重构工程师的角色 具身智能与下一代 Agent 31:16 制造业优势:中国可能在具身智能赛道领先 32:20 宇树机器人擅舞却不擅“思”:运动控制与智能操作的鸿沟 33:31 如何让机器拥有灵巧操作的能力? 34:12 Open Claw 与 Vibe Research:当研究生开始让智能体帮自己盯实验 35:23 智能体的隐私陷阱与使用边界 36:17 中国程序员正在用 Claude Code 写中国的大语言模型? 37:05 结语 🌟 精彩内容 💡 中美 AI 差距反而在拉大? Chu Chu 坦言,尽管在部分基准上中国模型看似追平,但实际体验和智能涌现上的差距仍在扩大。核心原因是用户反馈循环的断裂和基础设施的全面落后。“我认为我们还远远落后,而且差距还在越拉越大,这真的很让人难过。” 💡 刷榜文化才是真正的压力 在字节等大厂,每个团队紧盯着自己负责的基准分数,却没有将表现转化为真实场景中的好用体验。“从论文上看,中国的每一家大厂都有一个不错的模型,但以我自己的使用体验来说,我并不觉得它们真的够好。” 💡 蒸馏:被卡住脖子的中国 AI 在走捷径 为快速获取高质量训练数据,不少中国公司直接查询 GPT、Claude 等模型,将答案塞进自己的训练集。这种蒸馏虽然省时省钱,却让企业迟迟建不起自主的数据管道,形成恶性循环。 💡 推理成本才是烧钱大户 训练模型的成本固然高昂,但 Chu Chu 指出,真正吃掉利润的是部署后的推理算力。“如果能从算法上让推理效率提高一点点,哪怕百分之五,给公司省下的钱也会非常可观。” 这也是他回归北大后的主攻方向。 💡 具身智能:中国的下一张王牌 凭借全球领先的硬件制造能力,尤其在电机和本体方面,中国在具身机器人领域优势明显。但如何让宇树这样的机器人拥有真正的大脑——灵巧地拿起杯子、走进千家万户——仍是待解难题。 💡 智能体正在承包科研工作 他的学生已经开始用 Open Claw 监控模型训练、自动调试 Bug,团队甚至提出“Vibe Research”的概念:设定一个监控任务,就让智能体去完成,自己直接去睡觉。 🌐 播客信息补充 翻译克隆自: 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

37分钟
4k+
2个月前

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧