📝 本期播客简介 本期节目邀请到技术专家Ras Mic教授,他与Gregisenberg展开一场关于MCPs技术的深度对话。MCPs作为当前技术领域的热门话题,其核心价值和应用场景却鲜为人知。Ras Mic教授以通俗易懂的方式,详细解析了MCPs的定义、工作原理以及在大语言模型中的应用。特别亮点是Ross教授现场演示了MCPs如何作为大语言模型与外部服务之间的桥梁,提升AI助手的实用性。节目中还探讨了MCPs的商业机会和未来发展趋势,为创业者提供了宝贵的洞察。 👨💻 本期嘉宾 Ras Mic教授,技术专家,擅长将复杂的技术概念转化为通俗易懂的讲解。他在AI编程领域有深厚的造诣,尤其在大语言模型和工具集成方面有丰富的实践经验。 🌟 精彩内容 MCPs的定义与核心价值: Ras Mic教授详细解释了MCPs如何作为大语言模型与外部服务之间的适配层,提升AI助手的实用性。 实际应用场景: 通过具体案例展示了MCPs在数据库连接、自动化流程等方面的应用。 商业机会: 探讨了MCPs技术领域的创业机会,特别是MCP应用商店的创意。 未来发展趋势: 分析了MCPs技术的未来发展方向,以及创业者应如何把握时机。 🌐 播客信息补充 翻译克隆自:Model Context Protocol (MCP), clearly explained 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
📝 本期播客简介 本期《Lex Fridman Podcast》邀请到《纽约时报》专栏作家Ezra Klein和《大西洋月刊》资深撰稿人Derek Thompson,两位美国政治与媒体界的重量级人物。他们刚刚合著了新书《过剩宣言》,被视为美国进步派的行动纲领。在长达三小时的对话中,他们深入探讨了美国政治光谱的现状、左右翼的分歧本质、住房危机的解决之道、政府效率问题,以及如何通过增加供给来解决社会问题。作为对美国政治感兴趣的听众,这期播客将帮助您理解美国民主党和共和党的内部现状,特别是在2024年大选后的政治格局。嘉宾们还分享了对科技创新和未来发展的乐观展望,特别是在生物医学领域的突破和人工智能的潜力方面。 👨⚕️ 本期嘉宾 Ezra Klein,美国左翼政治圈的标志性人物,《纽约时报》专栏作家,畅销书《为什么我们如此对立》的作者,同时也是《Ezra Klein秀》的主持人。 Derek Thompson,《大西洋月刊》的资深撰稿人,著有《爆款制造机》和《论工作》,并主持《简明英语》播客。 🌐 播客信息补充 翻译克隆自:#463 – Douglas Murray: Putin, Zelenskyy, Trump, Israel, Netanyahu, Hamas & Gaza 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
📝 本期播客简介 本期节目由Google Mountain View团队录制,特别邀请了Gemini项目的核心成员Tossie,详细解读Google最新发布的AI模型Gemini 2.5 Pro。Tossie分享了这一突破性模型的亮点和背后的技术故事,包括其在推理能力、编程、多模态理解、长上下文处理等方面的卓越表现。节目中还探讨了未来Gemini系列的发展方向,以及模型开发中的安全性和团队协作的重要性。无论是从技术突破还是用户体验的角度,Gemini 2.5 Pro都代表了AI领域的最新进展。 原内容更新时间:Mar 29, 2025 👨💻 本期嘉宾 Tossie,Google Gemini项目的核心成员,负责Gemini 2.5 Pro的开发与优化。他在AI模型的研究与开发方面拥有丰富的经验,尤其在推理能力、多模态理解和长上下文处理等领域有着深入的研究。 ⏱️ 时间戳 00:00 开场 & Gemini 2.5 Pro简介 Gemini 2.5 Pro的亮点 00:20 推理能力与编程表现 00:45 多模态理解与长上下文处理 01:14 未来发展方向与安全性 模型开发与技术架构 02:08 预训练、后训练与推理技术的结合 03:10 模型的多模态能力与用户体验 04:05 测试方法与模型表现 05:11 单样本提示与代码生成 未来规划与挑战 07:04 模型性能的飞跃与思维模型特性 08:42 目标明确与模块化组合 10:13 Flash 2.0与2.5 Pro的对比 12:07 模型均衡能力与用户反馈 安全性与实践应用 13:31 安全机制与模型开发 15:09 视频理解与长文本处理 16:07 指令遵循能力与学术评测 18:45 内部评估机制与未来规划 🌟 精彩内容 推理能力:Gemini 2.5 Pro在多项核心基准测试中展现了领先水平,尤其在编程和多模态理解方面表现出色。 多模态理解:模型擅长处理视频和图像,支持超长上下文窗口,能够轻松处理长视频或大文档。 安全性:安全机制已融入模型开发的每个环节,确保模型在发布前经过严格的安全测试。 未来方向:Gemini系列将继续提升模型的实用性、动态推理能力和图像生成功能,推动AI技术的进一步发展。 🌐 播客信息补充 翻译克隆自:Launching Gemini 2.5 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
📝 本期播客简介 本期节目邀请到Thrive Capital创始人Josh Kushner,与Patrick O'Shaughnessy展开深度对话。Kushner首次公开分享了Thrive Capital的投资理念、公司文化以及他的个人创业经历。他从Thrive的创立初衷谈起,深入探讨了如何通过独立思考和长期视角在风险投资中取得成功。节目中,Kushner还分享了他在AI、金融科技、医疗健康等领域的投资见解,特别是对OpenAI的投资及其对未来技术发展的展望。此外,他还探讨了如何在高竞争环境中保持冷静,如何在快速变化的市场中抓住机会,以及如何通过数据驱动的方法提升投资决策的准确性。 👨⚕️ 本期嘉宾 Josh Kushner,Thrive Capital创始人和管理合伙人。他在2010年创立了Thrive Capital,并在2011年推出了首支机构基金。Thrive Capital以其独特的投资哲学和卓越的业绩在风投领域脱颖而出,投资了包括Warby Parker、Instagram、Spotify、Stripe等知名公司。 ⏱️ 时间戳 00:00 开场 & 嘉宾介绍 * Thrive Capital的投资哲学 00:26 Thrive Capital的创立初衷与投资理念 05:23 全阶段投资策略与成功案例 08:02 如何与创始人建立长期关系 * AI与未来技术 15:23 对OpenAI的投资及其对未来技术发展的展望 21:22 AI领域的创业机会与资本寒冬下的投资策略 * 创业与投资的双重身份 28:16 作为创业者与投资人的双重身份如何相互促进 36:09 Oscar Health的创立故事与医疗健康领域的投资洞察 * 投资策略与市场洞察 45:07 如何在高竞争环境中保持冷静并抓住机会 51:33 数据驱动的方法如何提升投资决策的准确性 * 团队与文化 01:00:27 如何打造高效团队与独特的公司文化 01:08:17 人才选拔与培养的关键因素 * 未来展望 01:17:34 对2023年投资行业的整体状况与趋势的见解 01:24:27 如何平衡早期与后期投资策略 🌟 精彩内容 Thrive Capital的投资哲学: Kushner详细解释了Thrive Capital的全阶段投资策略,如何通过独立思考和长期视角在风险投资中取得成功。 AI与未来技术: Kushner分享了对OpenAI的投资及其对未来技术发展的展望,探讨了AI领域的创业机会与资本寒冬下的投资策略。 创业与投资的双重身份: Kushner讲述了作为创业者与投资人的双重身份如何相互促进,特别是Oscar Health的创立故事与医疗健康领域的投资洞察。 数据驱动的投资决策: Kushner探讨了如何通过数据驱动的方法提升投资决策的准确性,特别是在高竞争环境中保持冷静并抓住机会。 团队与文化: Kushner分享了如何打造高效团队与独特的公司文化,以及人才选拔与培养的关键因素。 🌐 播客信息补充 翻译克隆自:Josh Kushner - Building Thrive Capital - [Invest Like the Best, CLASSICS] 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺; 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
📝 本期播客简介 本期节目由硅谷顶级风投机构A16Z消费团队合伙人Olivia Moore与普通合伙人Anisha Charia共同主持,深入解读第四期GenAI 100榜单。基于真实用户数据和营收表现,这份权威排名揭示了生成式AI领域的最新发展动态。节目将带您了解AI视频技术的突破性进展,探讨DeepSeek等新晋玩家如何改写行业格局,分析AI陪伴应用持续火爆的原因,并首次披露营收榜单与用户榜单仅有40%重合的惊人发现。特别值得关注的是,两位资深投资人将分享他们对AI编程工具普及、沉浸式编程等新兴趋势的独到见解,以及植物识别App等细分领域的商业化成功案例。 👥 本期嘉宾 Olivia Moore,A16Z消费团队合伙人,专注于生成式AI、创作者经济等领域的早期投资 Anisha Charia,A16Z普通合伙人,在消费科技和AI领域拥有丰富的投资经验 ⏱️ 时间戳 开场介绍 00:00 节目开场 & 嘉宾介绍 00:20 第四期GenAI 100榜单概述 AI技术突破 00:37 中国Clean等视频模型的崛起 01:17 AI技术持续降低创作成本 01:31 AI应用排名与关键突破时刻 02:52 AI视频生成与沉浸式编程趋势 榜单分析 03:22 榜单筛选标准详解 05:07 AI行业关键转折点 06:36 AI音乐与广告应用案例 07:35 DeepSeek的崛起与创新 市场洞察 08:34 AI市场发展曲线分析 09:58 AI处理流程化工作的表现 10:41 创新周期与市场格局变化 11:58 AI视频工具与智能编程助手 12:49 可视化编程工具的普及 细分领域 13:42 Brinklist新增板块解读 14:54 AI视频风格转换技术 15:52 语音交互产品的发展 16:37 DeepResearch的应用场景 产品表现 17:50 开发者工具与陪伴类产品 19:33 多模态应用与角色陪伴 20:47 创作平台与用户需求 21:56 ChatGPT的市场地位 23:29 Cloud的市场表现 25:25 DeepSeek的用户留存 区域与平台 27:32 中国AI视频模型的表现 29:14 KREA的整合能力 30:20 视频模型的专长与选择 31:50 Ideogram的特色功能 商业策略 32:48 移动端与桌面端的区别 33:49 赚钱领域与流量领域 35:03 植物识别App的市场 36:23 产品核心竞争力分析 🌟 精彩内容 AI视频技术突破: 深入探讨中国Clean等视频模型的崛起,以及DeepSeek如何在10天内改写行业格局 商业化路径: 首次披露营收榜单与用户榜单仅有40%重合,揭示AI商业化路径的多样性 新兴趋势: 分析沉浸式编程、AI陪伴应用等新兴趋势,探讨95%YC初创公司使用AI编程工具的现象 细分领域成功案例: 揭秘植物识别App等细分领域的商业化成功经验,分享年收入达5000万美金的案例 市场格局变化: 追踪ChatGPT、Cloud等头部产品的市场表现,解读DeepSeek等新晋玩家的用户留存数据 产品策略: 探讨AI创业者在专业化与大众化之间的平衡策略,分享产品核心竞争力的打造方法 🌐 播客信息补充 翻译克隆自:The Top 100 GenAI Products, Ranked and Explained 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群
📝 本期播客简介 本期节目来自Redpoint Ventures旗下知名AI播客Unsupervised Learning,主持人Jacob Efron邀请到OpenAI两位核心成员Nikunj Handa和Steve Coffey,深入探讨智能体技术的最新发展。节目录制于OpenAI重大更新发布后的关键时间点,三位专家分享了API设计背后的思考、智能体生态未来5-10年愿景,以及计算机使用模型等前沿技术的突破性应用。特别亮点包括多智能体系统如何像多核处理器一样协同工作,以及强化微调等尖端技术将如何扩展智能体的能力边界。 👨💻 本期嘉宾 Nikunj Handa 和 Steve Coffey ,OpenAI核心技术专家,深度参与智能体技术研发和API设计。他们分享了OpenAI最新技术进展的内部视角,以及对智能体生态的前瞻性见解。 ⏱️ 时间戳 开场介绍 00:00 跨国串门计划播客介绍 02:12 本期内容概述 智能体技术发展 02:12 智能体技术现状与挑战 03:26 未来5-10年发展愿景 05:08 API设计的有趣细节 06:10 智能体交互方式演变 多智能体系统 09:52 多智能体架构优势 19:18 任务分配与效率提升 20:03 开发策略讨论 API设计与工具 21:34 API易用性与定制性平衡 23:13 文件搜索功能演示 24:02 网页搜索改进方向 计算机使用技术 30:16 计算机使用模型潜力 32:09 代码处理能力期待 34:21 企业应用建议 快速问答 39:36 AI领域过度炒作与被低估的方面 40:09 推荐资源 🌟 精彩内容 未来愿景:智能体将深度融入日常产品,像多核处理器一样协同工作 API设计:专家分享参数命名的有趣争论,期待AI辅助API设计 技术突破:强化微调等前沿技术将极大扩展智能体能力边界 计算机使用:模型在浏览器环境表现出色,iPhone和Android应用潜力巨大 企业应用:建议从自动化最繁琐的工作任务开始尝试智能体技术 行业展望:旅游等垂直领域将出现突破性智能体应用 🌐 播客信息补充 翻译克隆自:Inside OpenAI's New Agent Development Tools 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期跨国串门计划带来Big Technology Podcast对Roblox CEO David Baszucki的深度访谈。作为日活8500万的虚拟世界平台掌舵人,Baszucki揭示了生成式AI如何彻底改变游戏开发模式。节目中详细展示了用AI十分钟开发游戏的惊人演示,探讨了3D基础模型的技术突破,并深入讨论了AI与人类创造力的边界。特别值得关注的是关于儿童数字安全、虚拟理财教育的实用建议,以及平台对AI生成内容的责任机制。 👨💻 本期嘉宾 David Baszucki,Roblox公司CEO。在他的领导下,Roblox已成为全球最大的用户生成内容游戏平台之一,拥有来自190个国家的8500万日活跃用户。Basaki在游戏行业拥有近20年经验,正在带领Roblox探索AI技术与虚拟世界的创新结合。 ⏱️ 时间戳 开场介绍 00:00 跨国串门计划播客介绍 00:45 本期Roblox CEO访谈预告 Roblox与AI技术 04:13 生成式AI改变游戏开发 07:10 3D基础模型技术突破 AI创作演示 11:15 十分钟开发游戏实例 14:15 AI与人类创造力辩论 平台责任与安全 17:05 AI内容责任机制 20:00 儿童安全防护措施 22:30 虚拟理财教育建议 未来展望 25:00 Roblox五年发展愿景 27:45 3D AI应用安全发展 🌟 精彩内容 • 现场演示:用AI十分钟开发完整游戏 • 独家揭秘:Roblox 3D基础模型技术细节 • 实用建议:儿童虚拟理财教育方法 • 深度探讨:AI与人类艺术创造力边界 • 安全机制:平台对AI生成内容的审核系统 • 未来图景:生成式AI如何重塑游戏产业 🌐 播客信息补充 翻译克隆自:Roblox CEO: We Want AI To Generate Full Games — With David Baszucki 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期跨国串门计划带来20VC播客对Cerebrus CEO Andrew Feldman的深度访谈。作为全球最快AI推理和训练平台的领导者,Feldman分享了如何通过晶圆级技术突破GPU内存带宽瓶颈,挑战NVIDIA在AI硬件市场的主导地位。节目中详细解析了AI推理市场的爆炸性增长、当前算法的效率瓶颈,以及未来五年AI硬件市场格局的演变预测。特别亮点包括Feldman对Transformer模型局限性的见解,以及Cerebrus与G42的10亿美元合作内幕。 原播客更新时间:March 24, 2025 👨💻 本期嘉宾 Andrew Feldman,Cerebrus联合创始人兼CEO。连续创业者,在芯片设计和AI硬件领域有丰富经验。他领导的Cerebrus开发了革命性的晶圆级AI处理器,正在重塑AI推理和训练市场的竞争格局。 ⏱️ 时间戳 开场介绍 00:00 跨国串门计划介绍 00:30 Cerebrus公司及嘉宾背景 AI硬件创新 00:30 晶圆级技术突破 04:00 内存带宽解决方案 06:30 GPU架构局限性分析 市场与技术 08:00 AI推理市场预测 12:00 能源消耗挑战 16:00 数据中心建设现状 算法发展 20:00 Transformer模型局限 25:00 未来算法方向 28:00 DeepSeek案例分析 行业竞争 30:00 NVIDIA市场地位 33:00 CUDA生态系统 37:00 未来市场份额预测 公司战略 40:00 G42合作内幕 43:00 上市决策分析 48:00 未来十年规划 🌟 精彩内容 晶圆级技术革命:详细解析如何通过Wafer Scale技术突破传统GPU的内存带宽限制 市场增长预测:AI推理市场未来五年可能增长100倍的惊人预测 算法效率瓶颈:当前AI算法利用率仅5-7%,存在巨大优化空间 行业竞争洞察:NVIDIA护城河分析及挑战者机会 能源挑战:AI计算日益增长的能源需求及解决方案 现场案例:DeepSeek如何用200人团队创造行业影响力 🌐 播客信息补充 翻译克隆自:20VC: AI Chip Wars: How Cerebras Plans to Topple NVIDIA's Dominance | Why We Have Not Reached Scaling Laws in AI | What Happens to the Cost of Inference | How We Underestimate China and Shouldn't Sell To Them with Andrew Feldman 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期跨国串门计划带来Big Technology Podcast的深度对话,由科技记者Alex Kantrowitz与知名分析师Ranjan Roy共同剖析科技圈最火热的三大焦点。节目直击苹果Siri为何沦为科技界最大尴尬,揭露微软与OpenAI价值130亿美元合作背后的权力博弈,并探讨AI将如何重塑未来职场图景。特别亮点包括德国媒体曝光的苹果AI战略缺陷,微软秘密训练的MAI模型内幕,以及AI克隆体代替人类进行专业采访的惊人案例。 👨💻 本期嘉宾 Ranjan Roy,知名科技分析师,创办的Margins通讯以犀利视角解读商业科技趋势而闻名。曾任多家科技公司战略顾问,对硅谷生态有深刻洞察。 ⏱️ 时间戳 苹果Siri危机 00:00 开场介绍 04:58 Siri技术落后现状分析 19:06 苹果内部AI架构问题曝光 24:53 与亚马逊Alexa、Google助手的对比 28:00 苹果可能面临的董事会压力 微软与OpenAI权力博弈 30:00 微软AI CEO会议发飙事件 34:21 微软自主AI模型MAI开发内幕 37:00 130亿美元合作关系的未来走向 AI职场革命 47:00 AI在法律、编程领域的应用案例 49:33 AI克隆进行专业采访的实例 52:00 AI对就业市场的潜在影响 🌟 精彩内容 * 德国媒体曝光的苹果Siri"双大脑"笨拙架构 * 微软秘密训练的MAI模型细节首次披露 * AI语音克隆体完成专业采访的实操案例 * Claude生成财务计划与教学游戏的惊人演示 * 大型律师事务所为AI工具支付高额费用的背后原因 🌐 播客信息补充 翻译克隆自:Apple’s Siri Embarrassment, Microsoft’s OpenAI Dilemma, Will AI Take Our Jobs? 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期《解构自我》播客邀请冥想导师、音乐家兼作家Rob Burby,与主持人Michael Taft展开一场关于空性、解脱与美的深度对话。Rob分享了他突破传统教义的创造性探索方式,详细解析了如何通过不同的观察方式来改变感知体验,从而获得解脱。特别亮点是Rob现场演示了分析式冥想技巧,展示了如何通过特定的观察方式让感知逐渐消退,并探讨了将空性理解与生活美学相结合的"灵魂塑造"方法。 原播客上线时间:August 27, 2018 👨🏫 本期嘉宾 Rob Burby,英国德文郡Gearhouse的冥想教师,著有《Seeing That Freeze - Meditations on Emptiness and Dependent Arising》一书。作为资深冥想导师,他将音乐创作中的创造力带入冥想实践,发展出独特的空性探索方法。 ⏱️ 时间戳 开场介绍 00:00 节目开场与嘉宾介绍 空性理论探讨 03:10 观察方式的概念解析 05:13 无我观察的实践方法 修行历程分享 13:24 Rob的修行背景与创造性探索起源 19:15 从爵士乐手到达摩修行者的转变 空性本质探讨 23:00 空性的定义与重要性 26:28 两种理解空性的方式:概念与体验 冥想实践方法 33:10 分析式冥想的运作方式 36:45 感知消退的技巧演示 灵魂塑造与健康 43:00 面对健康危机的修行经验 47:30 心灵修炼的艺术性与死亡观照 🌟 精彩内容 空性新解: Rob突破传统教义,提出创造性的空性探索方法 观察方式革命: 详细解析不同观察方式如何改变感知体验 分析式冥想: 现场演示将哲学分析融入冥想实践的独特技巧 灵魂塑造艺术: 探讨将空性理解与生活美学结合的新维度 生命终极关怀: Rob分享面对健康危机时的修行体悟 🌐 播客信息补充 翻译克隆自:Emptiness, Liberation, and Beauty – with Rob Burbea 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期跨国串门计划分享了来自 A16Z AI 博客的一期精彩对话,嘉宾是 Sesame 联合创始人兼 CTO Ankit Kumar。Sesame 是近期备受瞩目的 AI 创业公司,推出了对话式 AI 角色 Maya 和 Miles,凭借超自然的语音交互体验在网络上引发热议。在这次对话中,Ankit 分享了 Sesame 如何打造出超越同行的自然语音体验,解释了他们即将开源的对话语音模型 CSM 的工作原理,以及为什么他们选择专注于个性化和用户体验而非纯粹的技术指标。Ankit 揭示了 Sesame 的远大愿景,将 AI 伴侣打造成全新的计算界面,就像当年触摸屏革命一样改变人机交互方式。 👨💻 本期嘉宾 Ankit Kumar,Sesame 联合创始人兼 CTO。他与 A16Z 合伙人 Anjmita 共同创办了 Ubiquiti 6(后被 Discord 收购),现与前 Oculus 联合创始人 Brandon Araby 一起领导 Sesame。作为一个仅有十几人的团队,他们创造出了被 Reddit 用户称为"语音领域的 ChatGPT 时刻"的技术突破。 ⏱️ 时间戳 00:00 开场介绍 & 本期内容概述 产品体验与技术进步 03:29 产品发布后的反响:意料之外的良好用户反馈 04:08 开发过程中的挑战:如何在机器学习领域以直觉和系统方法平衡发展 06:53 为什么 Sesame 的语音体验超越竞争对手:专注于打造自然语音体验 09:59 技术与创意品味的结合:从 Pixar 汲取灵感的产品理念 技术架构与创新 19:19 音频转录和文本处理的改进方向:未来将直接处理音频无需转录 24:53 语音生成的挑战:选择哪些问题自己解决,哪些依赖开源社区 36:03 开源策略:即将开源的 CSM 模型与保持商业竞争力的平衡 50:50 多模态模型的未来:从单一语音生成到音频理解与生成的融合 55:53 下一代架构:全双工对话模型如何实现更自然的交互体验 产品愿景与市场定位 35:05 为什么不提供 API:专注于打造优质产品体验而非开发者工具 53:19 伴侣产品的本质:不只是工具,而是一种新的计算界面 59:38 Maya 与 OpenAI 产品的区别:伴侣产品与工具产品的不同定位 01:01:46 语音作为新型计算界面:超越传统图形界面的自然交互方式 01:10:54 技术团队的招聘标准:工程能力与产品感的结合 🌟 精彩内容 语音生成技术突破:Ankit 解释了 Sesame 如何开发出超自然的语音生成技术,让 AI 角色具有人类般的微小瑕疵和情感表达 CSM 模型开源:Sesame 即将开源其对话语音模型(CSM)的基础版本,允许开发者创建自定义语音角色 研究路线图展望:从当前的单向语音生成,到未来的音频理解,最终实现全双工对话模型 计算界面革命:Sesame 的愿景是将 AI 伴侣打造成一种全新的计算界面,就像当年触摸屏革命改变了人机交互 个性化与自然度:为什么在 AI 伴侣领域,产品体验和个性表达比纯粹的技术指标更重要 🌐 播客信息补充 翻译克隆自:Building the Next Generation of Conversational AI 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
📝 本期播客简介 本期节目邀请到Meta首席AI科学家、图灵奖得主Yann LeCun,由Alex Kantrowitz主持,深入探讨了当前AI发展的挑战与未来方向。LeCun以他犀利而坦率的风格指出,现有的大型语言模型(LLM)虽然在信息检索和复述方面表现优异,但缺乏真正的理解和创新能力。他认为,仅靠扩大LLM规模和增加数据量永远无法达到人类水平的智能,我们需要一个全新的AI架构范式。节目重点讨论了他的研究团队正在开发的JEPA技术框架,这是一种非生成式的联合嵌入预测架构,能够帮助AI系统在抽象层面上理解世界运作方式。此外,LeCun还分享了他对开源AI模型的看法,认为开源世界的创新速度正在超越专有模型。 👨🔬 本期嘉宾 Yann LeCun,Meta首席AI科学家,图灵奖得主,被誉为AI教父。他是深度学习领域的先驱,多年来致力于研发能够理解物理世界的AI系统。作为计算机视觉和机器学习领域的顶尖科学家,LeCun的研究对推动AI从基于文本的模型向能够理解和模拟物理世界的智能系统转变具有重要意义。 ⏱️ 时间戳 00:00:00 节目介绍:跨国串门计划与本期内容概览 00:01:12 大型语言模型的局限:LeCun认为LLM缺乏理解和创新能力 00:02:03 嘉宾介绍:META首席AI科学家Yann LeCun 00:03:03 AI的本质与大语言模型的区别:LLM主要功能是复述和检索 00:04:56 科学发现与AI创新:为什么AI还没能做出科学发现 00:07:05 推理与思维链条:LLM的推理能力局限性分析 00:09:18 人类思维与AI思维的差异:人类在脑海中直接推理的能力 00:10:52 LLM遇到的收益递减问题:模型已训练了上万亿个token 00:12:10 系统一和系统二理论:意识思考与潜意识自动化的区别 00:14:06 AI投资与技术发展时间线:投资是否值得的思考 00:16:56 Meta的AI战略:预计到年底将拥有10亿Meta AI用户 00:18:32 AI系统部署的实际困难:从演示到实用的挑战 00:19:55 AI历史上的起伏:专家系统热潮的兴衰与教训 00:22:24 物理世界理解实验:纸张和立方体的思考实验 00:26:16 AI系统的物理学习能力:婴儿如何用有限数据学习物理规律 00:31:19 视频生成系统的局限:为什么生成模型不等于理解世界 00:32:35 自监督学习原理:破坏输入并训练重建它的过程 00:35:36 JEPA技术框架介绍:非生成式的联合嵌入预测架构 00:40:12 开源AI模型的优势:DeepSeek等开源模型的快速创新 00:43:21 节目结束与告别 🌟 精彩内容 大型语言模型的局限性: LeCun详细解释了LLM虽然在信息检索方面很强,但缺乏真正的理解能力和创新思维,无法像人类那样提出创新问题 JEPA技术框架: LeCun介绍了他团队正在开发的非生成式联合嵌入预测架构,能够帮助AI系统在抽象层面理解世界运作方式 AI对物理世界的理解: 通过纸张和立方体的实验,LeCun展示了当前AI系统对物理世界理解的局限 数据量与智能的关系: LeCun计算出4岁儿童接收的视觉数据量与最大LLM训练数据量相当,但儿童的物理理解能力远超AI 开源vs专有模型: LeCun认为开源世界的创新速度更快,全球各地的优秀科学家共同推动技术进步 🌐 播客信息补充 翻译克隆自:Why Can't AI Make Its Own Discoveries? — With Yann LeCun 本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的 使用 AI 进行翻译,因此可能会有一些地方不通顺 如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群 BGM: 月代彩 - Chandrasekhar Limit 侵删
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧