Album
时长:
76分钟
播放:
682
发布:
7个月前
主播...
简介...
https://xiaoyuzhoufm.com

📝 本期播客简介


本期跨国串门计划分享了来自 A16Z AI 博客的一期精彩对话,嘉宾是 Sesame 联合创始人兼 CTO Ankit Kumar。Sesame 是近期备受瞩目的 AI 创业公司,推出了对话式 AI 角色 Maya 和 Miles,凭借超自然的语音交互体验在网络上引发热议。在这次对话中,Ankit 分享了 Sesame 如何打造出超越同行的自然语音体验,解释了他们即将开源的对话语音模型 CSM 的工作原理,以及为什么他们选择专注于个性化和用户体验而非纯粹的技术指标。Ankit 揭示了 Sesame 的远大愿景,将 AI 伴侣打造成全新的计算界面,就像当年触摸屏革命一样改变人机交互方式。



👨‍💻 本期嘉宾


Ankit Kumar,Sesame 联合创始人兼 CTO。他与 A16Z 合伙人 Anjmita 共同创办了 Ubiquiti 6(后被 Discord 收购),现与前 Oculus 联合创始人 Brandon Araby 一起领导 Sesame。作为一个仅有十几人的团队,他们创造出了被 Reddit 用户称为"语音领域的 ChatGPT 时刻"的技术突破。



⏱️ 时间戳


00:00 开场介绍 & 本期内容概述


产品体验与技术进步


03:29 产品发布后的反响:意料之外的良好用户反馈


04:08 开发过程中的挑战:如何在机器学习领域以直觉和系统方法平衡发展


06:53 为什么 Sesame 的语音体验超越竞争对手:专注于打造自然语音体验


09:59 技术与创意品味的结合:从 Pixar 汲取灵感的产品理念


技术架构与创新


19:19 音频转录和文本处理的改进方向:未来将直接处理音频无需转录


24:53 语音生成的挑战:选择哪些问题自己解决,哪些依赖开源社区


36:03 开源策略:即将开源的 CSM 模型与保持商业竞争力的平衡


50:50 多模态模型的未来:从单一语音生成到音频理解与生成的融合


55:53 下一代架构:全双工对话模型如何实现更自然的交互体验


产品愿景与市场定位


35:05 为什么不提供 API:专注于打造优质产品体验而非开发者工具


53:19 伴侣产品的本质:不只是工具,而是一种新的计算界面


59:38 Maya 与 OpenAI 产品的区别:伴侣产品与工具产品的不同定位


01:01:46 语音作为新型计算界面:超越传统图形界面的自然交互方式


01:10:54 技术团队的招聘标准:工程能力与产品感的结合



🌟 精彩内容


语音生成技术突破:Ankit 解释了 Sesame 如何开发出超自然的语音生成技术,让 AI 角色具有人类般的微小瑕疵和情感表达


CSM 模型开源:Sesame 即将开源其对话语音模型(CSM)的基础版本,允许开发者创建自定义语音角色


研究路线图展望:从当前的单向语音生成,到未来的音频理解,最终实现全双工对话模型


计算界面革命:Sesame 的愿景是将 AI 伴侣打造成一种全新的计算界面,就像当年触摸屏革命改变了人机交互


个性化与自然度:为什么在 AI 伴侣领域,产品体验和个性表达比纯粹的技术指标更重要



🌐 播客信息补充


翻译克隆自:Building the Next Generation of Conversational AI


本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的


使用 AI 进行翻译,因此可能会有一些地方不通顺


如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight 备注跨门串门儿计划 加听友群


BGM: 月代彩 - Chandrasekhar Limit  侵删

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧