简介:来自语音独角兽ElevenLabs创始人的访谈 ElevenLabs是一家专注运用深度学习开发自然逼真的语音合成的公司。2022年成立,发展迅猛,2025年1月完成1.8亿美元C轮融资,估值达33亿美元。 片面摘要: * 我们一直有个坚定的信念:语音是人类与技术交互最自然、最高效的接口,也是人与设备之间最直观的沟通方式。虽然最初的愿景是聚焦在配音和影视本地化上,但后来我们意识到,声音的潜力远不止于此——它可以提升从叙述类内容到实时交互体验的方方面面。 * 我们很多语音生成工作,正是通过加入一些不完美的“人性化特征”,让合成声音显得更加真实和有情感,这也成为ElevenLabs的声音技术与众不同之处。当然,并不是所有场景都适合这种风格。但总体而言,“人性”中的不完美,恰恰是人愿意互动的关键。 * 最让我意想不到的、基于ElevenLabs产品的应用场景:有一个对我们来说最温暖的故事。去年发生了一件事,一位美国国会议员因为ALS(渐冻症)不幸失去了声音,却希望继续代表她的州在国会工作,我们帮助她重建了声音。 来源:www.youtube.com
缘起: OpenAI联创、特斯拉前AI总监Andrej Karpathy昨天在YC发表的最新演讲,可能是最近最值得关注的一期内容。 摘要:我认为最重要的两张slides: 1、软件发展至今经历了三个截然不同的时代。 * 软件1.0 是我们所熟知的传统软件,即由人类程序员编写的显式代码,如C++或Python。它遵循精确的逻辑和指令。 * 软件2.0 则是随着深度学习的兴起而出现的。其核心不再是代码,而是神经网络的权重。 * 而当下,我们正迎来软件3.0的黎明。在这个新范式中,编程语言不再是Python或Java,而是自然语言——英语……“你的提示现在是编程大型语言模型(LLM)的程序。值得注意的是,这些提示是用英文编写的,这是一种非常有趣的编程语言。” 这一转变的意义是深远的,它从根本上降低了创造软件的门槛。 2、如何构建靠谱的智能体? 成功的半自主应用(如编程助手Cursor或信息引擎Perplexity)具备几个共同特征: * 1. 强大的上下文管理:应用本身负责搜集和整理所有相关信息,喂给LLM。 * 2. 为验证而生的GUI:“图形用户界面(GUI)对此极其重要,因为它利用了我们大脑中的视觉处理能力。阅读文本费力,但视觉呈现有趣,它就像一条通往大脑的高速公路。” 通过清晰的视觉差异对比(Diffs),人类可以极速审查和验证AI生成的内容。 * 3. 可调节的“自主性滑块” 来源:https://www.youtube.com/watch?v=LCEmiRjPEtQ&themeRefresh=1
来自软件智能体Devin创始人Scott Wu和Lenny的深度对谈。原视频时长92分钟。 片面摘要: * 把 Devin 看作一个并肩作战的初级搭档。每位工程师在构建 Devin 的过程中,都会大量用到 Devin 本身。我们团队有15个人,每个人大约有5个 Devin。所以 Devin 的数量是工程师的5倍。 * 你可以给出高层级的指令,指定你想要的实现方式。这仍然需要你来掌控方向、定义规范,但你一天能完成的事情、能构建的系统,已经完全不在一个量级了。 * 我认为几年后,程序员和工程师的数量会比现在多很多。而且,成为程序员的具体形式显然很快会发生改变,我们能构建的东西将会多得多……人们常常提及「杰文斯悖论」,软件确实是杰文斯悖论的典型例证。我们人类社会总能找到越来越多的事物,为其构建软件、编写更多代码,真的还有很多事情可以去做。 来源:https://www.youtube.com/watch?app=desktop&v=gI0ZNhA0rvE&t=623s
AI人才和数据平台Mercor刚完成了1亿美元的B轮融资,估值20亿美元。 Mercor创造了11个月内将年化收入从100万美元提升至1亿美元的惊人增长纪录。公司核心团队平均年龄仅22岁,已成功与OpenAI等顶级AI Lab建立了战略合作,为其提供关键的专家人力数据服务,成为AI价值链中的重要环节。 在AI招聘领域,Mercor区别于ZipRecruiter等传统平台和Otta等新兴竞争者的核心,在于其专有模型能通过独家绩效数据实现更精准的工作表现预测;而在AI数据标注服务市场,Mercor与Scale AI等公司的根本差异在于提供精选专家而非大规模众包资源。 来源:https://www.youtube.com/watch?v=UsTWgkNDwm4
来自AI教父辛顿的最新一期播客访谈,原视频长90分钟。 片面摘要: * 人类只有一次机会来开发超级智能。 * 我想区分两种完全不同类型的风险。有些风险源于人们滥用人工智能。这是短期风险。还有一些风险源于人工智能变得超级智能,并决定不再需要我们。我主要谈论第二种风险,因为很多人会问,那是真实风险吗?是的,的确如此。 * AI是数字化的。因为它是数字化的,你可以在一块硬件上模拟一个神经网络,也可以在不同的硬件上模拟完全相同的神经网络……在共享信息方面,AI比我们好几十亿倍。那是因为它们是数字的……当你去世时,你所有的知识都随你消亡。当AI这些东西消亡时……只要你把连接权重存储在某个地方……你就重新创造了那个智能体,所以它们是不朽的。 来源:www.youtube.com
一些片面摘要: * 苹果很可能会被人工智能颠覆。我们很早就开始提出问题的原因之一是,终极移动设备是什么?最终,它将会是一辆自动驾驶汽车。苹果本应该全力投入这个领域,而且他们也尝试过,但我们看到了一次又一次的管理层更迭——这是一个人工智能项目。而且我们了解到,随着他们一次又一次地更换团队,他们并没有把人工智能做好,他们的定位也不正确。 * 特斯拉的核心价值在于AI:特斯拉不仅是一家电动汽车公司,更是地球上最大的人工智能项目。其长期价值的90%将来自自动驾驶出租车网络,而非汽车销售本身。 * 比特币是新兴的“数字黄金”:比特币代表了一种全新的、与传统市场低相关的资产类别。随着机构投资者的入场和在新兴市场的普及,其价值有望在未来5-10年内实现指数级增长。 致歉:Cathie Wood发音“凯茜”,不应该是KaiQian,应该是KaiXi. 来源:www.youtube.com
内容:Cursor CEO Michael Truell的一期访谈播客精华 摘要: 如果我能坐在每一个首次使用 Cursor 的用户旁边,我会帮助他建立一种思维模式——对模型“能与不能”的本能判断力。 AI 编程工具的本质不是替代代码,而是提升人类指令的表达能力,压缩从想法到实现的路径。 来源:https://www.youtube.com/watch?v=En5cSXgGvZM
Lex Fridman两天前发布了和Google CEO 桑达尔·皮查伊的最新深度访谈; 原视频大约132分钟,我们翻译并制作了这期播客精华版,长度51分钟。 如果时间够,还是推荐去看原视频:www.youtube.com 一个活生生的劈柴哥,也喜欢梅西~
昨天是2025“AI春晚” 智源大会的第一天, 我们采访到了智源研究院院长,lol 给大家讲讲,都有什么值得关注的内容~ 来源:mp.weixin.qq.com
本期播客来自红杉资本和的Paid AI的CEO Manny 的访谈。 Paid AI志在打造Agents的基础设施。以 Agent 的实际产出为基础计价,重构 Agent 的收益模型与交易结算网络,为 Agent 经济体打下底层商业引擎。 note: 有观点认为:AI 会从高薪岗位入手,比如开发者、律师、医生,因为这些工作贵、需求大。 我不认同。真正能让 AI 落地的,是那些没人愿意做的工作。 我认为AI和Agent现在并不是在直接取代人类,而是在取代 BPO(业务流程外包)。所以凡是你看到 BPO 占很大角色的地方,就是 AI Agents 最适合落地的领域。 原文链接:https://mp.weixin.qq.com/s/yfzFwGFbhxbT0m6Xru6KrA
吴恩达和LangChain联合创始人Harrison Chase最近的一次对谈,聊到Agent,听听精华内容。 吴恩达: 我之所以提出这个观点,是因为我发现大家在不停地争论:“这个是 Agent 吗?”“这个不算吧?”——各种不同的定义争议:它够不够自主?是不是符合某个标准? 我当时的感觉是,与其花那么多时间争论这个是不是 Agent,不如我们整个社区换个方式思考:把“Agenticness(代理性)”看作一个光谱——有些系统代理性强,有些弱。 你想做一个稍微具备一点自主性的 Agentic 系统,或者一个非常自主的系统,都是可以的,没必要非得争论“这算不算 Agent”。 所以我提议,我们就叫这些系统“Agentic systems”,然后专注于怎么构建它们。这种思维方式,其实帮我们节省了大量争论时间,让我们能更快进入实操阶段。 原访谈链接:www.youtube.com
多年不见的“互联网女王”Mary Meeker重现江湖,公开了一份340页的《2025人工智能趋势报告》。 排版相对朴素,但信息量较大。 先听一听,有大块时间再看~ BTW,这期有片头片尾音乐了🎵 原文下载链接:www.bondcap.com 附上几张图: 祝大家六一快乐啊!
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧