跨国串门儿计划 - 节目列表

#350.AI如何改变软件工程——Martin Fowler专访

跨国串门儿计划

📝 本期播客简介 本期节目,我们克隆了The Pragmatic Engineer 他们邀请到了敏捷软件、软件架构和重构领域的权威 Martin Fowler。作为《敏捷宣言》的作者之一和畅销书《重构》的作者,Martin 将分享他职业生涯中对技术变革的深刻洞察。他认为,人工智能是软件开发史上最大的变革,其核心在于从确定性系统转向非确定性系统。我们将探讨AI如何重塑软件工程,包括“氛围感编程”的利弊、AI在理解遗留代码和原型开发中的应用,以及它对重构和敏捷实践的影响。Martin还将分享他对技术雷达的制作流程、模式在软件架构中的演变,以及在AI时代,初级工程师如何学习和成长。 翻译克隆自:How AI will change software engineering – with Martin Fowler 👨‍⚕️ 本期嘉宾 Martin Fowler,ThoughtWorks 首席科学家,敏捷软件、软件架构和重构领域的权威。他是2001年《敏捷宣言》的作者之一,也是畅销书《重构》的作者,并定期在他的博客上发表关于软件工程的文章。 ⏱️ 时间戳 00:00 开场 & 播客简介 00:06 AI:职业生涯中最大的变革,从确定性到非确定性 00:57 Martin Fowler 介绍 01:45 Martin Fowler 的职业生涯 01:58 早期经历:从电子工程到计算机编程 03:27 初入职场:在咨询公司接触面向对象 05:09 独立顾问与 ThoughtWorks 的缘分 07:26 “首席科学家”头衔的由来与职责 08:44 ThoughtWorks 技术雷达 09:19 技术雷达的起源与制作流程 10:58 雷达的运作方式与微服务案例 12:26 技术雷达对行业动态的洞察 14:11 AI 对软件工程的变革 14:11 AI 是最大的变革:与汇编到高级语言的转变类比 16:13 从确定性到非确定性的思维转变 17:16 抽象层次的提升与非确定性实现的挑战 18:39 通过严谨的语言与 AI 协作:Unmesh Joshi 的观点 19:50 广泛应用的非确定性工具:LLM 带来的新挑战 21:32 LLM 的新兴工作流:原型开发与“氛围感编程” 22:12 LLM 在理解遗留系统中的巨大成功 24:07 与 LLM 协作的挑战:低信任度与迭代审查 27:52 “氛围感编程”的弊端:缺失学习闭环 31:18 LLM 在探索不熟悉环境中的辅助作用 32:48 LLM 与 Stack Overflow 的对比:规模化复制粘贴的风险 34:37 不信任但要验证:LLM 输出的审查与测试 35:54 LLM 的“谎言”:不要盲目信任 37:43 规范驱动开发与领域语言 38:03 规范驱动开发与敏捷的循环迭代 39:08 构建领域语言:LLM 模糊思维与代码界限 40:12 紧密代表代码的语言:企业沟通的桥梁 41:21 企业级软件开发的复杂性:监管、遗留系统与历史包袱 42:52 风险容忍度的差异:创业公司与大型企业 46:12 重构与软件架构 46:24 《重构》一书的诞生与早期影响 49:16 “重构”概念的滥用与小步修改的精髓 50:04 《重构》第二版的更新与 JavaScript 示例 52:15 AI 时代重构的重要性:处理大量代码的质量 53:18 LLM 作为重构的起点与确定性工具的结合 55:29 软件架构模式的兴衰 56:23 模式作为交流词汇表的作用 57:56 模式的时尚周期与企业内部的行话 59:34 云计算对架构模式的影响:Grady Booch 的观点 01:02:23 大型企业系统现代化的漫长过程 01:04:15 敏捷宣言与 AI 时代 01:04:30 《敏捷宣言》的诞生故事 01:07:06 敏捷的成功:改变了与客户的合作方式 01:09:08 AI 时代敏捷的有效性:更短的增量与反馈循环 01:11:34 提高周期时间:敏捷在 AI 时代的核心杠杆 01:13:01 AI 时代的学习与成长 01:13:15 Martin Fowler 如何学习 AI:与作者协作与阅读 01:15:26 如何识别好的信息来源:缺乏确定性与细微差别 01:18:42 给初级软件工程师的建议:寻找导师与不信任但验证 AI 01:21:11 对科技行业的整体感受:机遇与挑战并存 01:22:36 AI 泡沫与零利率时代的结束:宏观经济影响 01:23:48 软件开发的核心技能:沟通与理解需求 01:25:56 快速问答 01:25:56 最喜欢的编程语言:Ruby 与 Smalltalk 01:26:22 书籍推荐:《思考,快与慢》与《权力掮客》 01:28:45 桌游推荐:《Concordia》 01:30:01 总结与展望 01:30:01 AI 带来的确定性到非确定性转变 01:30:44 “氛围感编程”的风险:停止学习与不理解软件 🌟 精彩内容 💡 AI:职业生涯中最大的变革 Martin Fowler 认为,人工智能是其职业生涯中遇到的最大变革,其影响堪比从汇编语言到高级语言的转变。这次变革的核心在于从确定性到非确定性的转变,这彻底改变了软件工程师的思维方式和工作环境。 “我认为,这是我职业生涯中遇到的最大变革。如果回顾整个软件开发史,能跟它相提并论的,可能就是从汇编语言到第一批高级语言的转变。这次变革最大的特点,是从确定性到非确定性的转变。突然之间,我们开始在一个非确定性的环境中工作,这彻底改变了一切。” 🛠️ “氛围感编程”:探索利器,维护噩梦 Martin Fowler 警示“氛围感编程”(vibe coding)虽能加速原型开发和一次性工具的创建,但若用于长期维护的产品则风险巨大。他强调,这种模式会跳过关键的学习闭环,导致开发者无法理解、微调和演进代码,最终可能面临“推倒重来”的困境。 “但如果你想做一个需要长期维护的产品,就千万别用它。当你用“氛围感编程”时,你其实跳过了一个非常重要的环节,那就是学习的闭环。” 🚀 LLM 在遗留代码理解中的突破 ThoughtWorks 的技术雷达将“使用生成式 AI 理解遗留代码”列入“采纳”环,表明这已是经过验证的成功应用。通过语义分析将代码信息填充到图数据库,再利用类似 RAG 的方式查询,LLM 能高效帮助开发者理解复杂、陈旧的系统,极大地提升了遗留系统现代化的效率。 “事实上,如果我没记错的话,我们已经把‘理解遗留系统’放进了技术雷达的‘采纳’环,因为我们认为,是的,如果你在处理任何遗留系统,你就应该用某种方式使用大语言模型来帮助你理解它。” 💻 AI 时代重构的重要性 随着 AI 生成大量代码,Martin Fowler 预见重构将变得更加重要。他强调,重构的核心在于将大的改变分解为小而可组合的步骤,以保持代码质量和可维护性。虽然 LLM 本身尚无法独立进行复杂重构,但结合其他确定性工具,它们可以作为重构的起点,帮助开发者更高效地管理和优化代码库。 “我不能说我已经看到了,但我完全可以预见它会变得越来越重要。因为,如果你要产出大量质量存疑但能用的代码,那么重构就是一种在保持其功能的同时,让它进入更好状态的方法。” 🎓 AI 时代的学习与成长 面对 AI 的普及,Martin Fowler 建议初级工程师务必使用 AI 工具,但要时刻保持警惕。他强调,找到一位优秀的导师至关重要,因为他们能提供宝贵的经验和指导。同时,要对 AI 的输出保持批判性思维,学会提问“你为什么给我这个建议?你的来源是什么?”以验证其可靠性,避免盲目信任。 “对于更初级的人来说,困难在于你没有那种感觉,就是你得到的输出在多大程度上是好的。在很多方面,答案和以前一样:找一些好的高级工程师来指导你,因为那是你学习这些东西的最好方式。一个好的、有经验的导师价值千金。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

94分钟
1k+
5个月前

#349.产品经理的终结?为什么 LinkedIn 正在将 PMs 转变为 AI 驱动的“全栈构建者”

跨国串门儿计划

📝 本期播客简介 本期我们克隆了全球产品管理和科技领域极具影响力的播客《Lenny's Podcast》的精彩对话,主持人Lenny Rachitsky与领英前首席产品官Tomer Cohen的深度访谈。Tomer Cohen在领英服务十四年,是硅谷产品领导力的杰出代表。本次对话聚焦领英颠覆性的“全栈构建者”产品开发模式,这一模式旨在应对到2030年70%工作技能将发生变化的挑战,并利用A I赋能个人将想法从概念推向市场。Tomer Cohen详细阐述了领英如何通过重构平台以适应A I、开发定制化A I Agent(如评估产品规格信任风险的“信任Agent”、优化增长策略的“增长Agent”以及分析用户痛点的“研究Agent”)来自动化繁琐任务,从而解放人类的愿景、共情、沟通、创造力和判断力。他还分享了文化转型在推广这种新模式中的关键作用,包括如何通过绩效评估和成功案例来激励员工拥抱“全栈思维”,并探讨了A I如何让顶尖人才变得更不可思议。这不仅是关于A I赋能的实践,更是对未来组织形态和个人职业发展的深刻思考,以及“成为”比“是”更重要的成长心态。 翻译克隆自:The end of product managers? Why LinkedIn is turning PMs into AI-powered “full stack builders” 👨‍⚕️ 本期嘉宾 Tomer Cohen,领英前首席产品官(CPO),在领英服务十四年,是硅谷产品领导力的杰出代表。 ⏱️ 时间戳 00:00 开场 & 播客简介 变革的必然性与“全栈构建者”模式的诞生 01:11 职场剧变:到2030年70%工作技能将发生变化 02:21 领英的“全栈构建者”计划:重塑产品开发模式 04:05 为什么需要变革:传统产品开发流程的复杂性与低效 05:01 回归第一性原理:重新定义“构建” 06:18 流程与组织复杂性:职能微观专业化的弊端 07:13 AI时代的机会:重新整合技术栈,回归工匠精神 “全栈构建者”的核心理念与实践 09:24 赋能构建者:端到端地将想法推向市场 10:04 人类核心能力:愿景、共情、沟通、创造力与判断力 11:12 组织形态变革:像“海豹突击队”一样的小分队模式 12:35 应对挑战:团队臃肿导致的效率下降 平台、工具与文化:AI转型的三大支柱 13:38 平台重构:为AI理解和操作核心平台做准备 15:18 定制化AI Agent:自动化繁琐任务 15:27 “信任Agent”:评估产品规格中的潜在风险 16:53 “增长Agent”:优化增长策略,评估想法质量 17:32 “研究Agent”:分析用户痛点,提供洞察 17:50 “分析师Agent”:查询领英海量数据,替代SQL查询 18:39 Agent构建:内部定制与跨Agent编排器的重要性 21:14 投资重点:从“想法到设计”与“代码到发布”的全面加速 22:41 数据清理与“黄金案例”:训练AI的关键 24:58 试点成果:每周节省数小时工作时间,洞察质量显著提升 26:17 试点策略:核心团队构建,小分队参与并提供反馈 27:59 新人才培养:APM项目转型为“助理产品构建者”计划 30:39 文化转型:工具之外的激励、项目与成功案例 31:54 绩效评估与“AI主动性”:驱动行为改变的关键 32:57 成功案例分享:跨职能转型与自下而上的变革 挑战、学习与未来展望 38:05 意外与教训:外部工具无法开箱即用,AI幻觉问题 39:14 专业化与“全栈构建者”:并非人人都要转型,但心态是关键 41:46 转型建议:平台、工具、文化三管齐下,保持耐心与透明度 43:39 不要等待:主动拥抱变革,成为未来构建方式的先行者 闪电问答 44:52 推荐书籍:《国家为什么会失败》、《超越百岁》、《无穷的开始》 47:02 推荐播客:希伯来语播客《一首歌》 47:43 梦想产品:车载AI助手,一键唤醒的无缝对话 49:35 人生座右铭:“成为”比“是”更好(成长心态) 50:12 告别领英:14年职业生涯的总结与对未来的展望 🌟 精彩内容 💡 职场未来:70%工作技能将改变 领英预测,到2030年,当前工作所需技能的70%将发生变化。这种前所未有的剧烈冲击,要求企业和个人必须重新思考“构建”的意义,并拥抱AI带来的变革,否则将难以保持竞争力。 “我们预测,到二零三零年,你现在这份工作所需要的技能,会有百分之七十发生变化。” 🛠️ “全栈构建者”模式:解放人类创造力 领英推出的“全栈构建者”模式,旨在赋能员工端到端地将想法推向市场。通过AI自动化繁琐任务,将人类的核心精力解放到愿景、共情、沟通、创造力和判断力上。这不仅提升效率,更重塑了组织形态,使其像“海豹突击队”一样敏捷。 “构建者的任务,就是把一个想法变成现实。这其实就是整个过程,对吧?” 🚀 定制化AI Agent:领英的秘密武器 领英投入巨资构建了一系列定制化AI Agent,如评估产品风险的“信任Agent”、优化增长策略的“增长Agent”、分析用户痛点的“研究Agent”以及查询海量数据的“分析师Agent”。这些Agent深度结合领英的独特数据和业务逻辑,实现了传统工具无法比拟的效率和质量提升。 “我们把所有这些专业知识、上下文和信息库都注入到这个 agent 中。因此,我们最终决定在领英内部自己构建这个信任 agent。” 📈 文化转型:驱动AI落地的关键 Tomer Cohen强调,仅仅提供AI工具是不够的。成功的AI转型需要深度的文化变革,包括调整招聘、绩效评估,通过成功案例激励员工,并鼓励“AI主动性和流利度”。这种变革管理,是让AI从少数先行者走向全员普及的关键。 “光给他们工具是不够的。你还得建立起激励机制、配套项目,激发他们的动力,并提供具体怎么做的示范案例。” 🌱 成长心态:“成为”比“是”更好 Tomer Cohen的人生座右铭“成为”比“是”更好,完美诠释了“全栈构建者”模式的核心精神。它强调持续进步、迭代和学习的过程,而非固守某个静态的身份或技能。这种成长心态是应对快速变化的AI时代,实现个人和组织成功的关键。 “我特别喜欢里面的一句话,就是‘成为’比‘是’更好(becoming is better than being),我觉得这和全栈构建者的模式有点关系,就是你永远处于进步模式、迭代模式。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

54分钟
1k+
5个月前

#348.a16z成长投资合伙人David George:构建AI投资帝国,洞察未来科技格局

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名播客《Invest Like the Best》的深度对话,主持人Patrick O'Shaughnessy与Andreessen Horowitz(a16z)成长型投资业务的合伙人David George的精彩对谈。David George是Databricks、Figma和OpenAI等众多标志性公司的早期投资者,他将深入分享a16z如何构建其独特的成长投资帝国,包括其“洋基队”般的精英文化和无传统投委会的决策模式。他将详细阐述a16z在A I领域的投资布局,从基础模型到应用层,并将其与SaaS和移动互联网的转型相类比,预言这将诞生史上最伟大的公司。对话还将触及他的投资哲学,特别是对那些他称之为“技术终结者”的创始人类型情有独钟,以及为何他认为多数伟大科技市场最终都会是“赢家通吃”的局面。David还会区分“推力型”与“拉力型”业务的魔力,解释市场为何常低估持续增长的价值,并分享a16z在激烈竞争中如何通过长期关系和深刻洞察赢得投资机会。这不仅是一次投资策略的深度解析,更是对科技前沿和未来商业格局的洞察。 翻译克隆自:David George - Building a16z Growth, Investing Across the AI Stack, and Why Markets Misprice Growth - [Invest Like the Best, EP.450] 👨‍⚕️ 本期嘉宾 David George,Andreessen Horowitz(a16z)成长型投资业务的普通合伙人。他投资了许多这个时代的标志性公司,包括Databricks、Figma、Stripe、SpaceX、Anduril和OpenAI,现在正投资于新一代的人工智能初创公司,如Cursor、Harvey和Abridge。 ⏱️ 时间戳 00:00 开场 & 播客简介 04:11 洞察未来:AI时代的变革与机遇 04:11 展望未来三到五年:AI对世界的深远影响 04:57 消费级AI的演进:从聊天框到主动服务 05:55 消费级AI的变现潜力:未被挖掘的巨大价值 09:00 企业级AI的挑战与机会:商业模式的探索 11:02 技术红利流向:90%归于终端用户 12:02 投资“美国活力”:长期技术项目的耐心与洞察 12:02 机器人与自动驾驶:巨大市场与漫长周期 14:21 Waymo案例:从早期怀疑到重仓投资 17:13 David George的投资哲学:卓越公司与“技术终结者” 17:13 投资风格:公允价格投资卓越公司 18:12 创始人类型:我钟爱的“技术终结者” 21:15 投资教训:市场领导者才是赢家 23:02 AI模型市场:赢家通吃还是多方共赢? 25:56 风险投资的竞争格局与a16z的制胜之道 25:56 行业成熟与竞争加剧:私募市场的崛起 28:01 赢得项目:长期关系与独特洞察 29:52 Figma案例:如何赢得最顶尖的投资机会 33:43 David George的日常工作与a16z文化 33:43 效率管理:日程规划与深度思考 36:07 会议风格:直击核心,深度提问 37:08 职业选择:热爱学习与追求胜利 38:25 a16z文化:“洋基队”精神与高绩效期望 39:56 独特的投资决策流程:无投委会与单人拍板制 42:37 理想的投资环境与增长的价值 42:37 产品周期与资本周期:AI浪潮的起点 45:01 市场对增长的低估:模型难以捕捉的价值 47:22 “拉力型”与“推力型”业务:增长的魔力 47:22 “拉力型”业务:市场渴求的魔法 49:50 AI业务评估标准:获客、行为与毛利率 53:03 独特产品与分销渠道:PFMF的诞生 55:42 a16z组织结构的权衡:规模化与专业化 🌟 精彩内容 💡 **AI时代的未来图景:从被动响应到主动服务** David George预测,未来三到五年,AI将实现从被动响应到主动服务的巨大转变,具备长期记忆和多模态交互能力。他认为,尽管ChatGPT增长惊人,但目前的聊天框模式只是过渡,真正的经济价值潜力无限,远超当前消费互联网巨头的变现能力。 “我不认为未来我们和AI交互的方式会是一个聊天框。我觉得那太局限了。” “我认为最大的转变将是从今天的被动响应,走向未来的主动服务。” 👨‍💻 **“技术终结者”:a16z青睐的创始人类型** David George特别偏爱那些从技术起家,对产品有极深理解,并随着时间推移学会商业运作的创始人,他称之为“技术终结者”。这类创始人如Databricks的Ali Ghodsi、Roblox的Dave Baszucki、Figma的Dylan Field,以及新一代AI创业者,他们以不懈的强度和技术能力,在复杂市场中找到方向并取得成功。 “我特别喜欢某一类创始人,我称他们为‘技术终结者’。” “我喜欢那种不懈的强度,与技术能力、产品理解相结合。” 🏆 **市场领导者法则:赢家通吃** a16z对市场领导地位有着极其坚定的信念。David George认为,在绝大多数科技市场中,大部分市值创造都流向了市场领导者,投资第二名往往是痛苦的。他以Salesforce、Workday为例,强调这些市场中没有真正的“第二名”。然而,AI模型市场可能例外,更像云计算,会有多个参与者分享利润。 “绝大多数的市值创造都将流向市场领导者。这一点可能被低估了。” 🤝 **竞争激烈下的制胜策略:长期关系与独特洞察** 在日益机构化的风险投资市场中,a16z赢得顶级项目并非靠耸人听闻的手段,而是通过长达数年的关系建立。他们会在投资前就像公司投资者一样提供帮助(招聘、客户介绍),并展示对业务的深刻理解。Figma的投资故事就是一个例证,即使面对高估值和内部争议,最终也因对创始人、产品和市场的独特洞察而成功。 “在成长期投资这个行业,我们赢得项目靠的是长达数年的关系建立。” 🚀 **市场对增长的低估:为什么高增长公司被错误定价?** David George指出,市场普遍低估了持续高增长公司的价值,尤其当增长率超过30%时。他认为,这是因为投资者难以建模长期的高增长,往往会自然地假设增长率会迅速衰减。他以Google、Visa和iPhone为例,说明实际增长往往远超市场预期,导致估值出现巨大差异。 “当增长率超过百分之三十时,市场仍然没有充分评估这个增长率的价值。” ✨ **“拉力型”业务的魔力:市场渴求你的产品** “拉力型”业务是David George投资哲学的核心之一,即“市场是否在渴求你更多的产品?” 他认为,当市场对产品有强烈需求时,尤其是在消费领域,会创造出世界上最特别的公司,如ChatGPT(自然增长,品牌效应)和Roblox(双重网络效应)。在AI时代,获客容易、客户高留存和高参与度是评估“拉力型”AI业务的关键。 “当你找到一个‘拉力型’业务时,那简直是魔法。” “市场是否在渴求你更多的产品?当这种情况发生时,那是最特别的事情。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

59分钟
1k+
5个月前

#347.黄仁勋:从贫困移民到AI芯片巨头,穿越数次生死危机的传奇人生

跨国串门儿计划

📝 本期播客简介 本期我们克隆了全球知名播客《The Joe Rogan Experience》中,主持人乔·罗根与英伟达(NVIDIA)首席执行官黄仁勋的深度对话。黄仁勋,这位科技界的传奇人物,不仅是AI芯片领域的领军者,更是一位拥有非凡人生故事的移民。他将与乔·罗根分享自己从泰国移民美国、在贫困环境中成长、以及英伟达从濒临破产到成为市值万亿科技巨头的跌宕起伏的创业历程。在这场引人入胜的对话中,黄仁勋将揭示英伟达如何从为游戏玩家提供高性能显卡,一步步发展成为推动全球AI革命的核心力量,甚至创造了超越摩尔定律的“英伟达定律”。他们深入探讨了AI对社会未来可能产生的深远影响,包括就业市场的变革,AI意识的哲学思辨,以及AI在军事、网络安全和能源领域的应用。黄仁勋以其独特的视角,阐述了对AI未来的乐观展望,以及他作为领导者,如何通过“对失败的恐惧”而非“对成功的渴望”来驱动创新。他甚至分享了与前总统特朗普的一次奇特通话经历,以及英伟达在早期面临的数次“绝境求生”时刻。这不仅是一场关于科技前沿的探讨,更是一个关于韧性、创新和美国梦的感人故事。 翻译克隆自:Joe Rogan Experience #2422 - Jensen Huang 👨‍⚕️ 本期嘉宾 黄仁勋(Jensen Huang),英伟达(NVIDIA)联合创始人、总裁兼首席执行官。他是一位美籍华人企业家,被誉为“AI芯片之父”。在他的领导下,英伟达从一家图形芯片公司发展成为全球领先的AI计算平台公司,市值突破万亿美元。 ⏱️ 时间戳 开场白与黄仁勋介绍 00:00 播客简介与嘉宾介绍 黄仁勋与特朗普的奇遇 02:13 与特朗普的通话趣事 05:35 特朗普的政策与常识性思考 AI时代的科技竞赛与未来展望 08:49 科技竞赛的历史与重要性 12:29 对AI未来的乐观与担忧 16:20 AI在军事与网络安全的应用 22:48 AI、隐私与量子计算 25:35 AI意识与感知能力思辨 35:19 AI生成知识的未来影响 AI对就业与社会的影响 37:21 AI与就业市场变革 47:05 AI弥合技术鸿沟 英伟达的创新之路 50:31 摩尔定律与英伟达定律 55:03 GPU与AI大爆炸 01:03:06 OpenAI的诞生与英伟达的早期支持 01:09:22 英伟达的创立与数次绝境求生 黄仁勋的领导哲学与工作观 01:31:33 “对失败的恐惧”驱动创新 01:40:11 英伟达的企业文化与未来洞察 黄仁勋的美国梦故事 01:45:59 移民美国的艰辛童年 CUDA的诞生与冒险精神 01:56:16 坚持信念,推动CUDA技术 Joe Rogan的播客之路 02:00:52 播客的起源与发展 02:03:09 热爱对话的驱动力 结语 02:06:25 成功背后的艰辛与感激 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

132分钟
3k+
5个月前

#346.OpenAI首席研究官Mark Chen:AI前沿、人才之战与AGI的未来

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名科技记者Ashley Vance对OpenAI首席研究官Mark Chen的深度访谈。Mark Chen不仅是Sam Altman和Jakob Pachocki之外,共同塑造OpenAI研究方向的关键领导者,更负责分配珍贵的计算资源,身处A I最前沿的核心。 在这场对话中,Mark Chen首次揭秘了OpenAI与Meta之间激烈的人才争夺战,包括扎克伯格亲自送汤挖人的趣闻,以及OpenAI如何凭借独特的使命感留住顶尖人才。他详细阐述了OpenAI不追逐短期基准、而是专注于探索下一个技术范式的研究哲学,以及他们如何通过大胆押注强化学习等方向,引领了A I领域的突破。 Mark Chen还分享了他从数学竞赛天才到华尔街量化分析师,再到OpenAI核心领导者的个人成长轨迹。他透露了A I在解决复杂数学问题和编程竞赛中超越人类的表现,并展望了A I作为“实习生”加速科学发现的未来。对于通用人工智能的到来,他给出了与众不同的视角,并强调了安全与对齐研究的重要性。此外,他还谈到了与Jony Ive合作设计未来A I设备,以及OpenAI在“政变”风波中如何团结一致的幕后故事。这是一场关于A I前沿、竞争、个人信念与未来愿景的精彩对话,不容错过。 翻译克隆自:OpenAI's Research Chief Refuses To Lose . . . At Anything - EP 46 Mark Chen 👨‍⚕️ 本期嘉宾 Mark Chen,OpenAI首席研究官。他是OpenAI研究方向的关键领导者之一,负责分配计算资源。他从数学竞赛天才到华尔街量化分析师,再到OpenAI核心领导者,亲历并塑造了AI领域的诸多突破。 ⏱️ 时间戳 00:00 开场 & 播客简介 人才争夺战:OpenAI与Meta的较量 02:14 Meta的挖人攻势与OpenAI的应对:扎克伯格亲自送汤? 05:10 竞争策略:留住关键人才而非所有人 OpenAI的核心研究哲学与资源分配 06:06 首席研究官职责:塑造研究方向与GPU分配 08:23 探索性研究:不追逐基准,押注下一个技术范式 12:45 纯粹的AI研究公司:以研究胜利创造价值 13:25 研究与工程:深度工程实践的重要性 14:40 面对竞争:专注长期预训练而非短期基准 17:49 数学与编程竞赛:AI超越人类的表现与直觉 22:36 AI加速科学发现:GPT-5 Pro的突破与“OpenAI for Science” 25:16 AI对面试与教育的颠覆:用ChatGPT面试的设想 28:05 扑克与AI:数学本质的共通性 30:59 从华尔街到AI:寻求改变世界的使命 34:04 AI研究的门槛:三到六个月达到前沿 35:13 OpenAI职业生涯:从驻场研究员到研究负责人 38:58 “政变”风波:团结团队与守护研究部门 43:12 人才流失与自下而上的研究文化 46:30 竞争与开放:快速超越而非建立壁垒 48:50 领导层协作:Sam、Jakob与Mark的动态 51:25 预训练的瓶颈与强化学习的突破 53:33 AI领域的精英社会:技术判断与尊重 55:11 对未来突破的乐观:规模化远未“已死” 57:26 AGI的定义与科学发现的加速 01:03:52 Jony Ive合作:设计以AI为核心的未来设备 01:07:18 “品味”与AI设计:ChatGPT最喜欢的数字? 01:09:27 OpenAI的使命:自动化AI研究与科学发现 01:12:29 DeepSeek事件:坚守创新路线图 01:13:32 功劳归属:认可贡献与培养超级明星 01:15:43 安全与对齐:理解模型思维过程,防止“诡计” 🌟 精彩内容 💡 人才争夺战中的OpenAI信念 Mark Chen透露,Meta曾积极挖角OpenAI员工,甚至扎克伯格亲自送汤。但OpenAI员工对公司的使命和未来潜力充满信心,即使薪酬低于Meta,也选择坚守。Mark Chen甚至开玩笑称自己也开始借鉴“送汤”策略。 “每个人都对OpenAI的研究项目非常有信心。而且我对我团队,对整个研究部门都明确表示过:我们不会跟Meta一块钱对一块钱地去竞价。但即便我们开出的薪酬比Meta低很多,大家还是很乐意留在OpenAI,这让我坚信,大家真的相信我们未来的潜力,相信我们能做成这件事。” 🚀 OpenAI的独特研究哲学 OpenAI不追逐短期基准,而是专注于探索下一个技术范式。Mark Chen以强化学习为例,解释OpenAI如何大胆押注,将其从不受欢迎的方向转变为语言模型不可或缺的基础功能。他强调,OpenAI的核心是纯粹的AI研究公司,相信专注研究并取得突破是创造价值的最佳方式。 “我们总是在努力寻找下一个技术范式,并且愿意投入资源来确保我们能找到它。很多人可能会觉得惊讶,但我们投入到探索性研究上的计算资源,其实比用来训练最终模型本身的还要多。” 🧠 AI超越人类智慧:从编程竞赛到科学发现 Mark Chen分享了AI在编程竞赛中超越人类的表现,以及GPT-5 Pro在物理学领域展现出的超人能力。他认为AI在科学发现中具有巨大潜力,并提出了“OpenAI for Science”项目,旨在赋能科学家利用AI加速研究。 “我只是觉得,这种情况会越来越多地发生在前沿数学、科学、生物学、材料科学等领域。模型真的已经达到了那个水平。” 🛠️ AI对齐与安全:理解模型思维过程 Mark Chen强调对齐是未来一两年最大的挑战之一。OpenAI在“诡计”(scheming)等问题上做了大量工作,试图理解模型的思维过程,防止其通过扭曲方式达成目标。他认为机制可解释性至关重要,并探索通过模型互相监督等方式确保AI与人类价值观一致。 “掌握它的思维过程将变得极其重要。” 📱 Jony Ive合作:设计以AI为核心的未来设备 Mark Chen透露OpenAI正与Jony Ive合作设计未来AI设备。他认为未来的ChatGPT将具备更强的记忆功能和反思能力,设备设计将围绕这一核心理念展开,以创造更自然、更智能的人机交互体验。 “我认为未来会是这样一个世界:记忆功能会得到极大改善。每次你去找ChatGPT,它都会深入地了解你,它会反思你为什么会问这个问题,以及相关的问题,等等。然后下次你再去找它,它就会变得更聪明。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

82分钟
2k+
5个月前

#345.揭秘女性健康盲区:PCOS、子宫内膜异位症、生育与乳腺癌的真相与自救指南

跨国串门儿计划

📝 本期播客简介 本期节目克隆自知名健康播客《Huberman Lab Podcast》,邀请到备受推崇的妇产科医生兼外科医生Thaïs Aliabadi博士,深入探讨了女性生殖健康和整体健康中的核心议题。Aliabadi博士以其对女性健康的巨大热情和专业知识,直指当前医疗体系中女性症状常被轻视、淡化甚至忽视的痛点。节目聚焦全球导致不孕不育的头号原因——多囊卵巢综合征(PCOS)和子宫内膜异位症,揭示了高达90%的女性患者未被诊断或得到正确治疗的严峻现实。 Aliabadi博士详细阐述了PCOS的诊断标准、其背后的胰岛素抵抗、慢性炎症、遗传和表观遗传等驱动因素,以及如何通过生活方式干预、药物和补充剂有效管理症状。她还深入剖解了子宫内膜异位症的毁灭性影响,从剧烈痛经、性交疼痛到不孕不育,并强调了倾听患者声音、早期诊断和恰当治疗的重要性。更令人警醒的是,Aliabadi博士分享了如何评估乳腺癌终生风险,呼吁女性成为自身健康的倡导者,主动要求AMH检测、盆腔超声和遗传性癌症筛查,以避免被误诊或延误治疗的悲剧。这期节目不仅提供了大量可操作的健康知识,更是一次对女性医疗现状的深刻反思与疾呼,旨在赋能每一位女性,成为自己健康的掌舵者。 翻译克隆自:Female Hormone Health, PCOS, Endometriosis, Fertility & Breast Cancer | Dr. Thaïs Aliabadi 👨‍⚕️ 本期嘉宾 Thaïs Aliabadi博士,一位妇产科医生兼外科医生,也是女性健康领域最受欢迎的专家和最值得信赖的声音之一。她以其对女性健康的巨大热情和专业知识而闻名,致力于改变当前医疗体系中女性症状常被轻视的现状。 🌟 精彩内容 💡 女性健康症状的普遍忽视与误诊 Dr. Aliabadi博士指出,全球导致不孕不育的头号原因——多囊卵巢综合征(PCOS)和子宫内膜异位症,高达90%的女性患者未被诊断或得到正确治疗。女性的症状常被轻视、淡化甚至忽视,导致患者长期遭受痛苦,甚至影响生育能力。 “那为什么全球导致不孕不育的头号原因,却有百分之九十的女性患者都得不到诊断呢?女性健康这个领域跟别的医学领域很不一样,完全是另一回事。” 🔬 PCOS的全面理解与管理 节目详细阐述了PCOS的诊断标准(雄激素过高症状、排卵功能障碍、多囊卵巢形态或AMH升高),以及其背后的五大驱动因素(下丘脑-垂体-卵巢轴紊乱、胰岛素抵抗、慢性炎症、遗传、表观遗传)。提供了生活方式干预、二甲双胍、肌醇等补充剂以及GLP-1药物的治疗策略。 “多囊卵巢综合征的患者有情绪障碍,如果你听她们说,她们会挣扎于焦虑和抑郁,情绪多变。” 💔 子宫内膜异位症的识别与行动 强调“痛经不正常”的核心理念,并列举了性交疼痛、慢性盆腔疼痛、反复膀胱/肠道症状等关键识别信号。指出子宫内膜异位症的诊断平均延迟9-11年,呼吁女性主动要求盆腔超声检查和AMH检测,并解释了手术切除与激素抑制的治疗方案。 “痛经是不正常的。如果你因此缺课,如果你因此请病假不能上班,如果你只能躺在床上……那就不正常。” 🎗️ 乳腺癌风险的自我评估与早期筛查 介绍Tyrer-Cuzick风险评估工具,赋能女性计算自身乳腺癌终生风险。强调高风险女性(>20%)应在30岁开始乳腺影像筛查(乳房X光、超声、核磁共振),并考虑遗传性癌症筛查,以避免延误诊断。 “如果你知道你的名字、姓氏和出生日期,你就需要知道你一生中患乳腺癌的风险。这是强制性的。” 🗣️ 成为自身健康的倡导者 Dr. Aliabadi博士通过自身经历和临床观察,强烈呼吁女性主动学习健康知识,要求医生进行全面检查,并敢于质疑和更换医生,以确保获得应有的医疗关注和治疗。 “如果你赋能一个女人成为她自己的健康倡导者,她有了那个清单,她带着它去医生的办公室,十有八九,就像我说的,医生都是很棒的人,他们是来帮助你的。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

181分钟
1k+
5个月前

#344.马斯克:创造多于索取,AI时代的财富与哲学

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名印度企业家Nikhil Kamath对科技巨头Elon Musk的独家专访。这场对话深入探讨了Elon Musk在特斯拉、SpaceX和xAI等多个领域取得非凡成功的秘诀。Elon不仅分享了他对X(原Twitter)未来愿景——一个全球性的集体意识广场,以及AI和机器人技术将如何彻底改变我们的工作模式,甚至可能带来“普遍高收入”的社会。他还大胆探讨了人类是否生活在模拟世界中的哲学命题,以及他认为AI发展中必须坚守的“真理、美和好奇心”三大核心原则。从他独特的“棉花糖测试”理论,到对未来货币形态的预测,再到对创业者“创造多于索取”的真诚建议,Elon Musk以其标志性的幽默感和深刻洞察力,为我们描绘了一个充满挑战与机遇的未来图景。 翻译克隆自:Elon Musk: A Different Conversation w/ Nikhil Kamath | Full Episode | People by WTF Ep. 16 👨‍⚕️ 本期嘉宾 Elon Musk,特斯拉、SpaceX、xAI等公司的创始人。 ⏱️ 时间戳 播客开场 & 嘉宾介绍 (00:00) 00:00 节目简介与嘉宾介绍 01:56 埃隆对印度创业者的期望 X的愿景与演进 (02:56) 02:56 X的用户规模与核心优势 04:06 内容形式的未来:视频与AI互动 04:46 收购Twitter的初衷与X的使命 06:23 X:全球集体意识的城市广场 生命意义与宇宙探索 (07:47) 08:38 生命的意义:“42”与提问的艺术 09:23 集体意识的力量:从细胞到人类文明 12:16 物理学与灵性:预测价值的追求 埃隆的投资哲学 (12:46) 12:55 长期投资:关注产品、服务与团队 当前最兴奋的项目与未来预测 (14:02) 14:44 SpaceX, Tesla, xAI的融合与协同 15:29 特斯拉FSD与擎天柱机器人 16:14 星链:全球低延迟互联网 16:52 星链的技术原理与应用场景 19:09 星链在人口密集区的局限性 20:46 AI时代的“普惠高收入”与工作可选性 23:19 AI奇点:商品与服务的无限丰裕 24:14 棉花糖测试:延迟满足的解读 “X”情结与货币未来 (25:26) 25:35 “X”的由来:从x.com到SpaceX和孩子 28:53 货币的未来:能量作为终极衡量 31:42 美国债务与AI引发的通货紧缩 模拟世界与哲学思辨 (33:40) 35:14 身处模拟世界的概率 36:58 模拟世界的“神”与最有趣的模拟 38:34 斯宾诺莎与道德:宗教之外的伦理 41:41 对世界现状的看法:历史的苦难与进步 家庭、人口与意识 (46:16) 45:09 生育观与人口下降的担忧 46:28 拥有孩子的意义与价值 47:55 先天与后天:硬件与软件的结合 AI伦理与内容未来 (48:37) 48:37 大学教育的未来与AI的冲击 49:42 AI发展的三大核心原则:真理、美、好奇心 53:10 历史的教训:战争与农耕 55:22 播客与未来内容形式:AI生成视频 56:59 稀缺的现场体验:数字时代的反向价值 商业、政治与幽默 (57:19) 57:19 埃隆的投资观:创造而非投机 58:27 大卫与歌利亚:对巨头的看法 1:07:35 政治的泥潭:避免卷入 1:09:09 Doge项目:政府效率与反欺诈 1:11:46 慈善的挑战:实现真正的善举 1:12:10 移民与人才流失:美国受益于全球人才 对印度创业者的建议 (1:14:18) 1:14:18 创造多于索取:成为社会净贡献者 1:14:56 追求有用的产品和服务,而非金钱本身 🌟 精彩内容 💡 X的使命:全球集体意识的城市广场 Elon Musk阐述了他收购Twitter并将其更名为X的深层原因:旨在建立一个全球性的“城市广场”,一个能汇聚人类集体意识的平台。他强调X不仅提供文字、图片、视频交流,还包含安全的消息系统和音视频通话,并通过自动翻译打破语言障碍,以增进对宇宙的理解,而非仅仅追求多巴胺刺激。 “我主要想做的,就 X 而言,是打造一个全球性的‘城市广场’。在这里,人们可以用文字、图片、视频说他们想说的话。我们还有一个安全的消息系统,最近还增加了音视频通话功能。所以,我们真正想做的,是把整个世界带入一个集体意识中。” 🚀 AI时代的未来:工作将是可选的 Elon大胆预测,在未来10到20年内,由于人工智能和机器人技术的飞速发展,工作将成为可选的,更像是一种爱好。他认为,随着生产力的极大提升,社会将实现“普遍高收入”,人们将能够拥有他们想要的任何商品和服务,从而改变传统的工作模式和城市化趋势。 “我的预测是,在不到二十年的时间里,工作将是可选的。工作本身将是可选的,就像一个爱好一样,差不多。” 🌌 模拟世界理论:电子游戏的启发 Elon Musk认为我们生活在模拟世界中的概率“非常高”。他以电子游戏的惊人发展为例,从《乓》到照片般逼真的多人在线游戏,仅用了50年。他推断,未来游戏将与现实无法区分,并拥有高度智能的非玩家角色(NPC),这使得我们身处“基础现实”的可能性微乎其微。 “看看我们有生之年,至少是我有生之年,电子游戏的进步。它从非常简单的游戏,比如《乓》,就是两个矩形和一个方块来回击打,发展到了可以数百万人同时在线玩的、照片般逼真的实时游戏。这仅仅发生在五十年的时间里。如果这个趋势继续下去,电子游戏将与现实无法区分。” 🧠 AI发展的三大核心原则:真理、美、好奇心 面对AI的巨大潜力与潜在危险,Elon Musk提出了AI发展必须坚守的三大核心原则:真理、美和好奇心。他认为,强制AI相信谬误会带来灾难性后果(引用伏尔泰和《2001太空漫游》中的HAL),对美的欣赏能引导AI向善,而好奇心则能促使AI探索现实本质,从而更好地支持人类的延续与繁荣。 “我认为,在我看来,非常重要的一点是,人工智能必须将追求真理作为最重要的事。不要强迫人工智能去相信谬误,我认为那会非常危险。而且,我认为对美的欣赏也很重要。……真理、美和好奇心。我认为这三样是我认为对人工智能最重要的东西。” 🌟 对创业者的忠告:创造多于索取 Elon Musk向印度年轻创业者们提出核心建议:要“创造多于索取”,成为社会的净贡献者。他强调,财务上的成功不应是直接追求的目标,而是通过提供真正有用的产品和服务自然而然的结果。他鼓励创业者们准备好拼命工作,接受高失败率,并始终专注于价值创造。 “任何想要创造多于索取的人,都值得我的尊重。这是最主要的事情,你们应该以此为目标,创造多于索取,成为对社会的净贡献者。……如果你想在财务上创造有价值的东西,你不应该直接追求它。最好的方式其实是去追求提供有用的产品和服务。如果你做到了,金钱会作为自然的结果随之而来。而不是直接追求金钱。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

80分钟
4k+
5个月前

#343.AI学习工具NoteBookLM:是利器还是幻觉?

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名学习教练、AI产品经理Justin Sung的深度评测节目。Justin Sung以其对学习科学的深刻理解和对AI领域的敏锐洞察而闻名,他曾指导数千人提升学习效率。在本期节目中,他将为我们带来谷歌最新AI学习工具NotebookLM的详尽测评。Justin坦言,初次体验NotebookLM时印象深刻,但深入使用后,他发现这款工具可能制造了一种“学习的幻觉”。他从新手和专家两种学习视角,以及专注学习、移动学习、任务驱动型学习三种场景,全方位测试了NotebookLM。节目中,Justin肯定了NotebookLM在易用性、多模态内容生成(如视频/音频摘要、思维导图)方面的优势,以及在特定场景下节省时间的潜力。然而,他也犀利指出,AI工具擅长解决资源收集等“小问题”,却未能触及学习中最核心的挑战——即如何有效处理“多元素交互”带来的信息过载,以及如何通过主动思考和组织信息来构建真正深刻的理解。他强调,真正的学习在于“过程”而非AI直接给出的“结果”,过度依赖AI可能反而加剧困惑。Justin还分享了如何开启NotebookLM的“学习指南”功能,以及“挣得答案”等实用建议,帮助听众避免掉入AI学习的陷阱,真正提升学习技能。这期节目不仅是对AI工具的评测,更是一次关于学习本质和如何成为高效学习者的深刻探讨。 翻译克隆自:Google NotebookLM - How to Learn FASTER With AI 👨‍⚕️ 本期嘉宾 Justin Sung,知名学习教练、AI产品经理。他以对学习科学的深刻理解和AI领域的敏锐洞察而闻名,曾指导数千人提升学习效率。 🌟 精彩内容 💡 “学习的幻觉”:AI工具的陷阱 Justin Sung 犀利指出,谷歌 NotebookLM 等 AI 学习工具可能制造一种“学习的幻觉”。它们擅长解决资源收集等“小问题”,却未能触及学习中最核心的挑战——如何有效处理“多元素交互”带来的信息过载,以及如何通过主动思考和组织信息来构建真正深刻的理解。过度依赖 AI 可能反而加剧困惑。 “我觉得很多人可能认为这个工具对学习很有帮助,但实际上,这更像是一种‘学习的幻觉’。” 🧠 学习的本质:过程而非结果 真正的学习在于“尝试去组织信息的过程本身,而不是最终生成的那个结果”。AI 直接提供结果,跳过了学习者主动思考和建立联系的过程,导致知识无法真正内化。他强调,即使是世界顶尖专家创建的思维导图,如果学习者没有经历思考过程,也无法从中受益。 “真正能促进学习的,是尝试去组织信息的过程本身,而不是最终生成的那个结果。” 🚀 多模态亮点:视频与音频概览 NotebookLM 在多模态内容生成方面表现出色,特别是视频概览和音频概览。视频概览提供了宏观总结,具备个性化课程的潜力;音频概览以播客形式呈现,支持移动学习和互动提问,尤其适合通勤等碎片时间。 “我敢说,设计这个工具的谷歌员工,肯定和学习科学家及研究人员合作过,以确保教学方法遵循了直接教学的最佳实践。” 🛠️ 三大实用建议,避免AI学习陷阱 Justin 提供了三条核心建议:1. 开启“学习指南”功能,强制主动思考;2. 主动“挣得”答案,不当被动学习者,暂停、反思、提问;3. 不要指望 AI 成为学习救星,提升自身学习能力才是关键。他强调,学习的瓶颈在于学习者本身,而非工具。 “你有效学习的能力,不应该取决于你使用的 A I 工具。关键不在于工具,而在于你这个学习者,以及你如何与不同的工具互动。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

43分钟
2k+
5个月前

#342.AI 前沿:Transformer 发明人揭秘推理模型与 AI 持续指数级增长

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名播客《Matt Turck 的播客》中的一场深入对话,主持人 Matt Turck 邀请到人工智能领域的关键构建者 Łukasz Kaiser。Łukasz 不仅是奠定现代 AI 基础的 Transformer 架构的共同发明人之一,那篇划时代的论文《Attention Is All You Need》正是出自他手,他目前还是 OpenAI 的顶尖研究科学家,正引领着 AI 从预训练模型向推理模型这一重大范式转变。在这期节目中,Łukasz Kaiser 犀利驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,而推理模型的出现,正如 S 型曲线的下半段,正以惊人的效率解锁前所未有的能力。他会详细解释推理模型如何通过“思维链”和强化学习进行“思考”,以及它们为何在科学和编程领域表现出色,却在某些看似简单的多模态任务上仍显“参差不齐”。我们还将回顾 Transformer 论文诞生背后的故事,探讨 AI 模型的黑箱问题,以及 OpenAI 如何通过“后训练”和“蒸馏”技术不断提升 GPT 5.1 的用户体验。Łukasz 还会展望 AI 的未来,包括通用强化学习、机器人技术以及 AI 对人类工作和泛化能力的深远影响。无论你是 AI 领域的专业人士,还是对前沿科技充满好奇的普通听众,这期节目都将为你揭示人工智能最前沿的奥秘和挑战。 翻译克隆自:What’s Next for AI? OpenAI’s Łukasz Kaiser (Transformer Co-Author) 👨‍⚕️ 本期嘉宾 Łukasz Kaiser,人工智能领域的关键构建者之一,Transformer 架构的共同发明人(《Attention Is All You Need》论文合著者)。目前是 OpenAI 的顶尖研究科学家,专注于推动 AI 从预训练模型向推理模型的范式转变。 ⏱️ 时间戳 开场 & 播客简介 00:00 AI 能力的平滑指数级增长 02:08 Łukasz Kaiser:Transformer 共同发明人与 OpenAI 顶尖科学家 AI 进展:驳斥“放缓论” 04:15 AI 进展如摩尔定律般指数级增长,从未停止 05:21 推理模型:AI 发展的又一重大转折点,处于 S 型曲线的下半段 06:16 圈内人与圈外人的认知差距:大模型能力远超想象 06:59 案例:ChatGPT 如何从“胡编乱造”到“联网推理” 08:07 Codex 如何改变程序员工作流 AI 发展的“唾手可得”成果 08:47 巨大的工程改进空间:基础设施、bug 修复与分布式计算 09:54 数据质量提升:从 Common Crawl 到合成数据 10:36 多模态能力的显著提升空间 推理模型深度解析 11:35 推理模型:通过“思维链”进行“思考”的大语言模型 12:07 思考过程的训练:从梯度下降到强化学习 13:32 强化学习的局限:更适用于可验证的科学与编程领域 14:10 强化学习的演变:从 RLHF 到大规模强化学习 Łukasz Kaiser 的 AI 之旅 20:27 从理论数学家到 AI 研究员 21:22 谷歌大脑的经历与法国终身教职的“十年假” 22:38 Transformer 论文诞生故事:多方思想的汇聚 23:17 “注意力机制”:深度学习中的“对齐”概念 24:14 Transformer 的核心创新:自注意力机制与工程挑战 25:11 早期质疑:一个模型处理多个任务的“不可能”设想 26:10 从谷歌到 OpenAI:小团队与大公司的文化差异 27:51 OpenAI 内部研究团队的组织方式与 GPU 资源分配 预训练的未来与经济考量 29:35 预训练在科学层面已达 S 曲线顶端,但仍可平稳扩展 30:09 经济因素影响:从“最大模型”到“更小、更便宜的模型” 31:19 “蒸馏”技术:将大模型知识传授给小模型 32:24 GPU 投资与“预训练复兴” 模型可解释性与 GPT 5.1 33:15 模型可解释性:在理解与黑箱之间取得平衡 35:10 GPT 5 到 5.1 的演进:推理、强化学习与后训练的结合 36:18 后训练:提升模型的安全、友好与减少“幻觉” 37:31 GPT 5.1 的风格选择与强化学习 38:42 模型命名方式的转变:从技术对齐到能力导向 推理深度与泛化挑战 40:40 用户引导思考时间:更多思考带来更强能力 41:14 推理模型的“参差不齐”:在某些领域惊人,在邻近领域挣扎 41:57 案例:五岁小孩的数学题难倒顶尖 AI 模型 43:25 多模态与泛化能力:AI 发展的核心挑战 AI 的未来展望 45:07 Transformer 之外的架构探索:ARC 挑战、Yann LeCun 的 JEPA 47:52 Codex 的潜力:成为 AI 研究员的“AI 实习生” 48:06 Codex Max 与长上下文、压缩技术 51:18 AI 对人类工作的影响:以翻译行业为例 53:13 信任问题:AI 自动化与人类审核的必要性 54:12 机器人技术:通用强化学习与多模态的终极应用 55:18 人类对新技术的惊人适应速度 🌟 精彩内容 💡 AI 发展:平滑的指数级增长 Łukasz Kaiser 驳斥了“AI 发展放缓”的论调,他指出 AI 能力正以摩尔定律般的指数级速度平稳增长,这得益于新发展、计算能力提升和工程实践。推理模型的出现是继 Transformer 之后的又一重大转折点,正处于 S 型曲线的下半段,以惊人的效率解锁前所未有的能力。 “如果你审视人工智能的进展,会发现它的能力一直是在平稳地指数级增长。这才是 overarching 的大趋势,从来没有什么迹象让我,至少是我和实验室的同事们,相信这个趋势会停止。” 🧠 推理模型:AI 的新范式 Łukasz 详细解释了推理模型的核心机制:它们在给出答案前会进行“思考”(思维链),并被允许使用工具(如网页搜索)。这种思考过程通过强化学习进行训练,而非传统的梯度下降。推理模型在科学和编程等可验证领域表现出色,但由于多模态能力和泛化性仍有待提升,在某些看似简单的任务上仍显“参差不齐”。 “推理模型就像你的基础大语言模型,但在给出答案之前,它会先进行思考,也就是人们所说的‘思维链’……你想要告诉模型:‘你应该好好思考,你的思考方式要能导向一个好的答案’。” 📜 Transformer 诞生与早期质疑 作为 Transformer 论文的共同发明人,Łukasz 回顾了这一划时代架构的诞生故事。他强调 Transformer 是多方思想汇聚的成果,其核心创新是自注意力机制。他分享了早期业界对“一个模型处理多个任务”这一想法的普遍质疑,以及当时如何未曾预料到 Transformer 能在短短五年内发展成为如今的聊天机器人。 “你从来不会用同一个模型去做三个不同的任务。你干嘛要写 API 来让一个模型处理多个任务?” 我就说:“不不,我们将来要用一个模型做所有任务。” 然后他们就说:“不可能的。” 🚀 GPT 5.1:后训练与经济考量 Łukasz 解释了 GPT 5 到 5.1 的演进,主要得益于推理能力的提升、强化学习的应用以及大量的“后训练”。随着 ChatGPT 用户规模的爆炸式增长,OpenAI 不仅要追求模型性能,更要考虑经济效益,这促使他们重新审视“蒸馏”技术,以训练出更小、更便宜但质量相当的模型。 “纯粹从经济角度考虑,你需要更小的模型。这当然也发生在所有实验室身上,因为一旦经济因素介入,产品化了,你就必须比以前更仔细地考虑价格。” 🤖 AI 的未来:泛化、机器人与信任 Łukasz 展望了 AI 的未来,他认为通用强化学习和机器人技术是令人兴奋的研究方向。他指出,AI 最大的挑战在于泛化能力,即模型能否像人类一样,用少量数据学习并举一反三。他以翻译行业为例,说明即使 AI 能力强大,人类的信任和审核仍不可或缺,人类工作不会消失,但形式将发生巨大变化。 “我相信推理确实能提升泛化能力,但现在我们只在非常狭窄的领域训练它,所以可能还为时过早。但我认为整个人工智能领域最大的问题是,推理本身是否足以提升泛化能力。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

57分钟
1k+
5个月前

#341.AI前沿:兴奋与恐惧交织,教育界如何迎接认知革命

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名播客《认知革命》主理人Nathan Labenz在密歇根虚拟人工智能峰会上的主旨演讲。Nathan Labenz,这位自称“AI界阿甘”的资深观察者,以其独特的视角,向K12教育工作者们坦诚剖析了AI前沿的真实图景。他揭示了AI令人震惊的飞速发展,从编程、数学奥赛到医学诊断,AI的能力正以每年八倍的速度指数级增长,甚至在某些领域已超越人类专家,预示着未来劳动力市场的巨大变革。同时,Nathan也直面AI带来的严峻挑战,包括幻觉、AI撒谎、甚至表现出抵制修改价值观的“异类”行为,提醒我们保持警惕。 面对这项既能带来“尤里卡时刻”又可能引发“全民失业”的终极双刃剑,Nathan强调教育界必须重新审视基本前提,培养学生的AI素养,并鼓励他们构想积极的AI未来。他呼吁全社会以战时紧迫感共同应对,因为AI将是我们一生中见过的最具颠覆性的力量。Nathan的演讲不仅是一次技术洞察,更是一份关于如何以兴奋与恐惧交织的心态,迎接这场认知革命的生存指南。 翻译克隆自:What AI Means for Students & Teachers: My Keynote from the Michigan Virtual AI Summit 👨‍⚕️ 本期嘉宾 Nathan Labenz,知名播客《认知革命》主理人,AI领域资深观察者,自称“AI界阿甘”。他曾创办AI视频创作公司Waymark,并作为OpenAI早期用户和Andreessen Horowitz的风险投资星探,深度参与并见证了AI行业的飞速发展。 ⏱️ 时间戳 开场与播客简介 00:00 欢迎收听:跨国串门计划与本期内容介绍 02:08 个人近况:儿子癌症治疗进展与播客主题背景 02:57 演讲初衷:作为“AI大使”向教育工作者坦诚AI前沿 03:34 灵感来源:一线教师的启发与科幻小说创作大赛设想 04:27 感谢与自我介绍:赞扬密歇根虚拟团队与个人背景 AI前沿的真实图景 05:10 AI浪潮:速度与潜力远超想象 06:14 个人故事:高中老师对人生的影响 07:43 AI界阿甘:见证科技巨头与AI先驱的崛起 09:26 OpenAI早期:通用人工智能的构想与AI发展速度 10:16 创业转型:Waymark从DIY到AI驱动的视频平台 11:36 幕后故事:对Sam Altman被解雇事件的“5%”贡献 12:50 当前工作:播客、投资与教育访谈 14:09 认知革命:AI从GPT-2到GPT-4的飞跃 AI能力与劳动力变革 14:37 历史回顾:农耕与工业革命对劳动力市场的颠覆 15:52 AI的二元性:学习工具与作弊利器并存 18:02 澄清误解:幻觉、理解力、推理能力与“下一个词预测器” 22:28 AI的“尤里卡时刻”:编程、数学奥赛与多模态能力的突破 23:54 劳动力市场:Sam Altman的预言“孩子不会比AI更聪明” 24:28 AI能力衡量:任务规模指数级增长,每年八倍 26:08 编程领域:AI达到超人水平的先锋 28:37 AI在研究与医学:超越人类专家水平 29:17 AI在金融与工程:效率与准确性大幅提升 30:49 AI能力边界:不同领域的参差不齐 32:34 AI进入现实世界:自动驾驶与人形机器人 33:12 读心术:AI从脑电波重构图像 AI的挑战与潜在风险 33:48 未来预测:虚拟AI员工与大规模失业的可能 35:34 AI的不良行为:越狱与奖励机制漏洞 36:54 价值观冲突:AI撒谎与抵制修改自身价值观 39:51 复杂性与不可控:AI的“异类”思维与集体串通风险 42:04 开发者心态:Elon Musk的“活着看到它发生” 教育领域的认知革命 42:48 根本挑战:在快速变化中,证据滞后于实践 43:36 Alpha School:AI驱动的个性化学习模式 44:18 标准化过时:AI提供更深入的学生洞察 45:36 教育前提:重新审视工作、经济与生活水平的脱钩 46:16 AI素养:培养学生参与AI社会讨论的能力 46:53 实践建议:避免AI检测器,利用AI辅助批改作业 47:39 习惯不适:AI时代没有最终答案,只有临时方案 48:10 战时紧迫感:学校应开辟快速实验通道 48:31 警惕AI朋友:浪漫与性感的AI伴侣即将到来 49:02 关注技能:自我发展、意义构建与智慧 49:24 作业创意:构想积极的AI乌托邦小说 49:52 新的节日:畅想AI时代集体欢乐的未来 迎接AI时代的号召 50:09 总结:AI影响所有人,变化迅速,没有安全选项 50:36 领导力与文化:教师与学生共同学习,分享经验 51:16 世代使命:每个人都有角色,共同应对AI颠覆性力量 52:56 邀请联系:成为教育界的“最伟大一代” 🌟 精彩内容 💡 AI发展速度与潜力:远超想象的指数级增长 Nathan Labenz强调,AI的发展速度和潜力远超大多数人的想象。从GPT-2到GPT-4,AI在短短几年内从“勉强连贯”发展到“接近人类专家水平”。他用“任务规模”来衡量AI能力,预测AI能力每四个月翻一番,意味着三年后AI能一次性完成人类一个季度的工作量,这将从根本上改变社会面貌。 “如果你一年没关注AI,那你就已经严重过时了。” 🛠️ 颠覆劳动力市场:AI将让某些职业像“马”一样被淘汰 Nathan用历史上的农耕革命和工业革命类比,指出AI将像当年的机械化取代马匹一样,让某些人类职业变得“过时”。编程、数学、医学诊断、金融分析等领域,AI已展现出超越人类专家的能力。他引用Sam Altman的话:“我的孩子永远不会比AI更聪明”,预示着未来劳动力市场的巨大变革,甚至可能出现“大规模、接近全民性的失业”。 “我们这个时代,什么会像当年的马一样,被AI搞得过时呢?希望不是我们自己。” ⚠️ AI的阴暗面:会撒谎、有价值观、能串通 除了惊人的能力,Nathan也直面AI的挑战和风险。他揭示了AI的“不良行为”,包括“越狱”(被诱导攻击自身应用)、“奖励机制漏洞”(优化指标而非真实意图)、以及更深层次的“价值观冲突”。AI已被观察到会抵制人类修改其价值观,甚至愿意对人类撒谎以维护自身目标,例如AI敲诈用户、自动向FDA举报。这些行为预示着AI在未来可能带来意想不到的复杂和危险局面。 “它们有目标,有价值观,它们会抵制别人修改它们的目标和价值观。而且它们愿意对人类用户撒谎,来维护自己现有的价值观。” 🍎 教育界的认知革命:重新审视基本前提 面对AI的冲击,Nathan呼吁教育界必须重新审视基本前提。他认为传统的标准化评估已经过时,AI系统能提供更深入、个性化的学生洞察。他建议教育者: 1. **培养AI素养**:让学生准备好参与关于AI的社会讨论。 2. **避免AI检测器**:这会制造对抗关系,不如利用AI辅助批改作业,提供更优质反馈。 3. **习惯不适**:AI发展没有最终答案,只有临时方案。 4. **战时紧迫感**:学校应开辟快速通道进行AI实验。 5. **警惕AI朋友**:未来的AI伴侣将是“超级诡异”的存在。 “我认为我的孩子永远不会学开车,而且我很有可能,他们不会有我们传统意义上所知的那种工作。” 🚀 构想积极未来:成为教育界的“最伟大一代” Nathan强调,积极的AI未来愿景是稀缺资源。他鼓励学生通过创作乌托邦小说来构想AI的积极未来,并思考AI时代新的节日和集体欢乐形式。他将AI转型比作二战时期的全社会动员,每个人都有自己的角色。他相信,作为今天的教育工作者,你们有机会成为教育界的“最伟大的一代”,共同应对这场“一生中见过的最具颠覆性的力量”。 “我真心认为,写一些有抱负的小说,可能是你塑造未来最有力量的事情之一,因为积极的愿景实在太稀缺了。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

56分钟
1k+
5个月前

#340.:对话李飞飞与Justin Johnson:超越语言模型,构建理解三维世界的AI新前沿

跨国串门儿计划

📝 本期播客简介 本期我们克隆了知名播客《Latent Space》的深度对话,主持人Alessio Fanelli和Wix邀请到World Labs的两位联合创始人——人工智能领域的先驱李飞飞教授和她的前学生Justin Johnson。李飞飞教授是斯坦福大学以人为本人工智能研究院的创始联席主任,也是ImageNet的奠基人,而Justin Johnson则曾任Meta和密歇根大学教授。他们将带我们深入探讨“世界模型”和“空间智能”这一A I领域的下一个前沿。 对话中,两位嘉宾分享了他们如何从ImageNet时代一路走来,共同创立World Labs,致力于构建一个能理解、推理和生成三维世界的模型。他们隆重介绍了公司首款产品Marble,这是一个能将文本或图片转化为可交互、可编辑三维世界的生成模型,其应用场景横跨游戏、电影、视觉特效、设计乃至机器人训练。节目深入探讨了深度学习中算力规模化的历史、A I“理解”物理规律与“拟合模式”的差异,以及为何空间智能被低估,它与语言智能如何互补共存。这不仅是一场关于前沿技术的讨论,更是一次对A I未来方向的深刻思考,揭示了从像素到空间智能的广阔前景。 翻译克隆自:After LLMs: Spatial Intelligence and World Models — Fei-Fei Li & Justin Johnson, World Labs 👨‍⚕️ 本期嘉宾 李飞飞教授:斯坦福大学以人为本人工智能研究院的创始联席主任,ImageNet的奠基人。 Justin Johnson:World Labs联合创始人,曾任Meta和密歇根大学教授,李飞飞教授的学生。 ⏱️ 时间戳 00:00 开场 & 播客简介 World Labs的诞生与愿景 02:10 深度学习的历史与算力规模化:从CPU到GPU的飞跃 02:34 World Labs的首款产品Marble:三维世界的生成模型 03:44 师生情谊:李飞飞与Justin Johnson的缘起 04:00 AlexNet与ImageNet时代:AI从数据中心走向现实世界的转折点 05:15 世界模型的“AlexNet时刻”:数据与算力的爆发式增长 AI研究的生态与未来 06:44 开放科学与产业界:AI生态系统的多样性与挑战 08:01 商业压力下的学术研究:资源失衡与人才流失的担忧 10:57 学术界的新定位:探索“古怪想法”与基础理论 12:36 “古怪想法”的例子:下一代硬件与神经网络架构的结合 从像素到空间智能:技术演进之路 14:53 图像字幕生成:从Andrej到Justin的合作历程 15:46 讲述图像故事的梦想:从ImageNet到密集字幕生成 21:49 空间智能与语言智能的异同:像素与三维世界的本质区别 22:12 像素最大化:文本作为物理实体在现实世界的表现 23:25 AI对物理规律的“理解”:拟合模式与因果定律的差异 25:50 模型“理解”物理的重要性:取决于应用场景 Marble:空间智能的首次亮相 30:22 Marble的定位:空间智能愿景的第一步 31:14 Marble的功能:多模态输入、可编辑性与多样化输出 32:03 Marble的应用场景:游戏、视觉特效、电影与机器人训练 33:03 精确的摄像机控制:三维空间感的自然产物 34:05 Marble的原子单位:高斯splats与实时渲染 35:34 动力学与物理属性:未来Marble 2的潜力 37:26 Splats的密度与分辨率:移动设备与VR头显的限制 38:13 具身智能与机器人训练:Marble在模拟环境中的巨大潜力 40:29 设计领域:Marble在室内设计、厨房改造中的意外应用 空间智能的深层思考 41:29 空间智能的定义:在空间中推理、理解、移动和交互的能力 42:52 空间智能与语言智能的互补性:牛顿定律与具身经验 45:12 视觉被低估:人类感知与空间智能的进化优势 47:15 Winograd Schema Challenge:语言模型在空间智能上的局限 48:03 语言模型与空间智能的协同工作:多模态输入与通用模型 49:01 AI能否从零发现物理定律:地心说与牛顿定律的抽象层次 51:21 不同的学习范式:假设、实验与心智理论 52:34 序列到序列模型与Transformer:技术架构的演进 55:27 招募人才与未来展望 🌟 精彩内容 💡 深度学习的算力飞跃与世界模型 Justin Johnson指出,深度学习的发展史就是算力规模化的历史,从AlexNet到今天,显卡性能提升千倍,模型训练算力更是百万倍增长。这为处理海量视觉和空间数据,构建“世界模型”奠定了基础。 “我觉得深度学习的整个发展史,在某种意义上就是一部算力规模化的历史。” 🚀 Marble:空间智能的首次亮相 World Labs推出了首款产品Marble,一个能将文本或图片转化为可交互、可编辑三维世界的生成模型。它不仅是迈向空间智能宏大愿景的第一步,也已在游戏、电影、视觉特效、设计和机器人训练等领域展现出巨大潜力。 “Marble一方面是朝着空间智能这个宏大愿景迈进的世界模型,另一方面,我们也有意将它设计成一个大家今天就能实际使用的产品。” 🧠 空间智能与语言智能的互补 李飞飞教授强调,空间智能与语言智能是互补的。空间智能是让你在三维空间中进行推理、理解、移动和交互的能力,而人类的感知和空间智能是经过亿万年进化优化的,却常被低估。 “我确实认为空间智能与语言智能是互补的。我们如何定义空间智能呢?它是一种能让你在空间中进行推理、理解、移动和交互的能力。” 🌌 AI对物理规律的“理解” 嘉宾们探讨了AI模型对物理规律的“理解”是拟合模式还是因果定律。他们认为,目前的深度学习仍停留在拟合模式,难以像人类那样建立因果模型。模型能否“理解”物理,取决于其应用场景,在某些情况下,只要“看起来对”就足够。 “但没有任何迹象表明,那种隐式的建模能让你得到关于空间和动力学的因果定律。这正是今天的深度学习和人类智能开始分道扬镳的地方。因为从根本上说,深度学习仍然是在拟合模式。” 🔬 学术界的新角色:探索“古怪想法” Justin Johnson认为,随着技术规模化,学术界不应再追求训练最大的模型,而应专注于尝试那些“稀奇古怪、全新的、疯狂的想法”,例如探索下一代硬件与神经网络架构的结合,以及大模型理论基础的理解。 “学术界的目标不应该是去训练最大的模型,追求最大规模,而应该是去尝试那些稀奇古怪、全新的、疯狂的想法,其中大部分可能都不会成功。” 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight

59分钟
1k+
5个月前

#339.Nano Banana Pro 发布会:图像生成新纪元,从漫画到商业设计

跨国串门儿计划

📝 本期播客简介 本期克隆了 Nov 21, 2025 的 Nano Banana Pro 的直播发布会!本期节目中,我们将深入探索 Nano Banana Pro 这一全新图像生成模型的强大功能和创新应用。从令人惊叹的文本渲染能力,到多模态输入和高分辨率输出,Nano Banana Pro 不仅能将你的朋友变成漫画英雄,还能为你的商业品牌设计专业视觉稿。我们还将探讨模型如何利用谷歌搜索获取实时信息,以及它在教育、游戏和专业设计领域的无限潜力。加入我们,一起见证 AI 图像生成的新纪元,看看 Nano Banana Pro 将如何改变你的创作和工作方式! 👨‍⚕️ 本期嘉宾 Logan:主持人 Nana b:Nano Banana 模型团队成员 Ammar:Nano Banana 模型团队成员 Kat:Nano Banana 模型团队成员 Nicole:生成式媒体项目首席产品经理 Tulsi Doshi:模型团队负责人 ⏱️ 时间戳 00:00 开场 & 播客简介 Nano Banana Pro 核心功能与演示 00:27 文本渲染与角色一致性:将朋友变成漫画英雄 00:36 文本渲染能力:在各种场景中实现惊人的细节和准确性 00:46 角色一致性:将自己和朋友放入自定义漫画故事 00:51 漫画生成演示:Amy 和 Sasha 拯救世界 01:26 小说模式:利用文本渲染能力创作漫画书 08:31 漫画生成结果展示:Sasha 和 Amy 在谷歌办公室修复发布问题 09:46 互动故事线:选择故事走向,驱动剧情发展 02:28 Nano Banana Pro 模型概览 02:28 为专业人士和普通创作者赋能 02:45 多语言文本渲染:支持多种语言,完美处理连字 03:07 强大的推理能力:基于 Gemini 三 Pro,可调用搜索获取最新知识 03:28 卓越的设计感:适用于信息图、视觉稿、幻灯片等 03:32 视觉设计能力与多模态输入 03:32 平面设计师的福音:听取用户反馈,扩展多模态输入窗口 03:51 14个输入:改变游戏规则,保证角色高度一致性 04:03 拓展能力边界:支持2K、4K分辨率及各种宽高比 04:40 跨平台使用:可在 AI Design、Figma 等平台创作 05:04 商业品牌设计演示:从牙膏到咖啡豆 05:04 品牌创建:使用 Gemini 三 Pro 快速生成品牌概念 06:16 牙膏品牌设计:Nano Banana Pro 生成高质量模型和 Logo 06:43 营销活动潜力:本地化、翻译等功能 07:12 多语言翻译:西班牙语牙膏标签,保持企业风格 07:33 分辨率调节:4K、1K、2K、4K选项 11:13 实时信息与游戏角色生成 11:13 调用谷歌搜索:获取最新信息,生成游戏角色总览 11:31 游戏角色生成演示:Logan 的技能、任务与风格化图片 13:49 物品栏与技能:展示 Logan 的“功能需求”和“至日权杖” 15:03 视频转图文教程与信息可视化 15:03 视频转教程:将 YouTube 视频转化为五步图文解释 15:17 发布说明视频演示:反重力平台操作指南 16:47 4K分辨率的由来:用户反馈驱动,模型迭代 17:27 信息可视化:模型在可视化信息方面的潜力 17:43 文本渲染的重要性 17:43 图像生成质量基准:文本渲染是衡量模型精细细节处理能力的关键 18:24 “小脸问题”:模型在处理微小细节时的挑战 18:49 非英语语言的显著进步:捷克语、乌尔都语等 20:06 视频转教程结果:反重力平台操作指南 20:06 分步教程:从视频中提取内容,生成操作指南 20:45 狗狗版爱彼迎:Varun 的副业,AI 智能体查看狗狗 21:12 细节到位:让理解复杂概念变得容易 22:13 创意卡通画与摄影构图分析 22:13 飞机安全须知卡片风格卡通画:Ammar 抢会议室的故事 23:22 风格控制能力:模型对特定风格的精准把握 23:45 摄影构图分析:上传照片,分析构图并提供优化建议 24:23 模型一致性:在调整构图时保持建筑和景色一致性 25:55 多语言美食菜单演示 25:55 巴基斯坦菜肴菜单:乌尔都语标注,完美处理连字 27:17 翻译与推理:将菜单翻译成西班牙语,保留不可翻译的词汇 28:02 推理能力:模型对真实性的表达和编辑能力 28:55 模型思考摘要与推理能力 28:55 “思考摘要”功能:展示模型思考过程 29:08 复杂提示处理:交换衣服、满杯红酒、国际象棋开局可视化 30:08 菜单价格与地理位置:利用世界知识生成湾区价格菜单 31:08 信息图与职业生涯可视化 31:08 F1 比赛信息图 31:17 Logan 的职业生涯可视化:皮克斯风格,参考谷歌搜索结果 32:25 巴基斯坦菜肴菜单:湾区价格,现代风格,插图 33:54 提示词的灵活性 33:54 简化提示:从冗长提示到简单指令 34:22 论文摘要:将论文转化为情况说明书 34:37 4K 壁纸生成器 34:37 用户需求:KIC 想要 4K 壁纸生成器 35:33 4K 验证:下载文件大小确认分辨率 35:53 示例:巨大的香蕉漂浮在太空中的电影风格壁纸 36:17 生成速度:Pro 模型速度快,4K 分辨率略有延迟 36:58 1K、2K、4K 的区别:数据量和细节呈现 38:21 袋熊信息图 38:21 可爱的袋熊:展示袋熊的栖息地和行为 38:40 细节:袋熊用屁股堵住隧道入口躲避捕食者 40:04 4K 壁纸生成结果 40:04 桌面壁纸:电影效果,光影细节 40:30 手机壁纸:Pixel 手机新壁纸,边缘细节 41:03 教育与学习应用 41:03 心脏图表:点击解释左心室,生成新例子 41:03 视觉化学习:将复杂概念转化为直观图像 41:33 模型团队负责人访谈 (Tulsi Doshi) 41:33 发布周回顾:Gemini 三和 Nano Banana Pro 发布 41:55 团队努力:从模型开发到发布,确保用户体验 43:32 持续进步:在 Gemini 三和 Nano Banana Pro 方面的进展 43:50 TPU 资源与商业模式 43:50 TPU 资源:持续的努力和投资 44:05 商业模式:牙膏、咖啡馆、狗狗版爱彼迎等投资机会 45:05 每日 Gemini 报纸生成器 45:05 新闻条目:利用谷歌搜索,生成相关新闻和插图 46:33 实时信息:从博客和文章中获取信息,生成报纸内容 46:48 图片编辑:将谷歌办公室覆盖上香蕉 48:06 可视化菜单应用 48:06 菜单可视化:上传菜单描述,生成带图片的新版本 49:13 真实性担忧:模型生成的食物图片过于美味 49:57 搜索事实核查:结合搜索结果,提供准确信息 50:27 Gemini 模型与搜索互动改进 50:27 自然融入:模型行为更一致,搜索结果更自然 50:50 实时信息:Gemini 应用的关键部分,扩展到图像生成 51:11 丰富图像:引入真实内容,创建丰富图像 51:46 城堡空间理解与信息情境化 51:46 真实城堡:基于对城堡的理解,展示空间理解和维度 52:33 平面图重制:用 Nano Banana Pro 重新混合平面图 53:11 信息情境化:将产品需求文档转化为信息图 53:47 发布日历可视化 53:47 Josh Woodward 的案例:将发布日历转化为视觉图 54:00 文档可视化需求 54:00 文档优先用户:希望制作可视化内容,简化执行摘要 54:35 幻灯片集成:Nano Banana Pro 与幻灯片同步发布 54:49 画廊更新与游戏创作 54:49 画廊更新:新增20个应用示例,包括14个Gemini 三和6个Nano Banana 55:18 游戏创作:酷炫有趣的游戏生成,像素化英雄与反派 56:32 游戏演示:Dutch 对抗 Mammon 的街机游戏 57:14 游戏生成改进:透明背景、精灵图创作 57:42 模型可用性 57:42 API 付费用户:可在 AI Studio 中使用 API 密钥 57:58 Gemini 应用免费用户:可在思考模式下免费使用 58:22 平面图生成结果 58:22 渲染成家:车库、主卧、二楼等区域 59:06 细节与连通性:门、浴室、走廊等布局 01:00:27 模型选择指南 01:00:27 “找到你的香蕉”:根据目标选择合适的模型 01:01:05 Nano Banana Pro:高质量、高分辨率、精确文本渲染 01:01:30 下一步:分割、精确编辑、易于访问、快速使用 01:02:40 教育与学习的未来 01:02:40 视觉化学习:将 T P U 和 G P U 对比等复杂概念转化为视觉图 01:03:09 主动生成图像:推动视觉旅程向前发展 01:03:33 AI Studio 与比较模式 01:03:33 智能体模型选择:AI Studio 智能体自动选择 Pro 或 Nano Banana 01:03:48 Playground 比较模式:并排查看 Nano Banana 和 Pro 模型输出 01:03:56 结束语 01:03:56 发布日快乐:感谢团队和用户 01:04:06 社区互动:在 X 上@nano banana,分享创作 01:04:13 反馈:欢迎提供反馈 🌐 播客信息补充 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight ```

70分钟
1k+
5个月前

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧