📝 本期播客简介
本期跨国串门计划分享了来自 A16Z AI 博客的一期精彩对话,嘉宾是 Sesame 联合创始人兼 CTO Ankit Kumar。Sesame 是近期备受瞩目的 AI 创业公司,推出了对话式 AI 角色 Maya 和 Miles,凭借超自然的语音交互体验在网络上引发热议。在这次对话中,Ankit 分享了 Sesame 如何打造出超越同行的自然语音体验,解释了他们即将开源的对话语音模型 CSM 的工作原理,以及为什么他们选择专注于个性化和用户体验而非纯粹的技术指标。Ankit 揭示了 Sesame 的远大愿景,将 AI 伴侣打造成全新的计算界面,就像当年触摸屏革命一样改变人机交互方式。
👨💻 本期嘉宾
Ankit Kumar,Sesame 联合创始人兼 CTO。他与 A16Z 合伙人 Anjmita 共同创办了 Ubiquiti 6(后被 Discord 收购),现与前 Oculus 联合创始人 Brandon Araby 一起领导 Sesame。作为一个仅有十几人的团队,他们创造出了被 Reddit 用户称为"语音领域的 ChatGPT 时刻"的技术突破。
⏱️ 时间戳
00:00 开场介绍 & 本期内容概述
产品体验与技术进步
03:29 产品发布后的反响:意料之外的良好用户反馈
04:08 开发过程中的挑战:如何在机器学习领域以直觉和系统方法平衡发展
06:53 为什么 Sesame 的语音体验超越竞争对手:专注于打造自然语音体验
09:59 技术与创意品味的结合:从 Pixar 汲取灵感的产品理念
技术架构与创新
19:19 音频转录和文本处理的改进方向:未来将直接处理音频无需转录
24:53 语音生成的挑战:选择哪些问题自己解决,哪些依赖开源社区
36:03 开源策略:即将开源的 CSM 模型与保持商业竞争力的平衡
50:50 多模态模型的未来:从单一语音生成到音频理解与生成的融合
55:53 下一代架构:全双工对话模型如何实现更自然的交互体验
产品愿景与市场定位
35:05 为什么不提供 API:专注于打造优质产品体验而非开发者工具
53:19 伴侣产品的本质:不只是工具,而是一种新的计算界面
59:38 Maya 与 OpenAI 产品的区别:伴侣产品与工具产品的不同定位
01:01:46 语音作为新型计算界面:超越传统图形界面的自然交互方式
01:10:54 技术团队的招聘标准:工程能力与产品感的结合
🌟 精彩内容
语音生成技术突破:Ankit 解释了 Sesame 如何开发出超自然的语音生成技术,让 AI 角色具有人类般的微小瑕疵和情感表达
CSM 模型开源:Sesame 即将开源其对话语音模型(CSM)的基础版本,允许开发者创建自定义语音角色
研究路线图展望:从当前的单向语音生成,到未来的音频理解,最终实现全双工对话模型
计算界面革命:Sesame 的愿景是将 AI 伴侣打造成一种全新的计算界面,就像当年触摸屏革命改变了人机交互
个性化与自然度:为什么在 AI 伴侣领域,产品体验和个性表达比纯粹的技术指标更重要
🌐 播客信息补充
翻译克隆自:Building the Next Generation of Conversational AI
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用 AI 进行翻译,因此可能会有一些地方不通顺
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群
BGM: 月代彩 - Chandrasekhar Limit 侵删
空空如也
暂无小宇宙热门评论