David的AI全景图 - 节目列表

AI数据标注新巨头Surge AI创始人访谈

比 Scale AI 更值得关注的 AI 数据标注公司Surge AI。至今没有融资，去年营收达到 10 亿美元，已超过Scale AI。摘要： * 数据标注领域的其他公司本质上只是「人力外包公司」，交付的不是数据，而仅仅是人力。Surge 定位其产品是：直接用于训练和评估 AI 模型的高质量数据，包括监督微调（SFT）数据、偏好数据等。 * 大语言模型竞技场，以及各种学术基准测试是「人工智能的一大祸害」。用户凭 5-10 秒的直觉选择，导致模型被训练得去优化排版、表情符号和回答长度等表面特征，牺牲了事实性和指令遵循能力，本质上是在训练模型产出「点击诱饵」。 * Edwin Chen 用「画边界框」和「写诗」来类比两类数据。前者数据质量天花板很低，而后者（如写诗、编程、数学证明）质量天花板极高，充满了主观性、创造力和智慧。生成式 AI 时代所需要的数据是后者。 * 你可以用 10%的资源和 10%的人力，建立一家完全不同的公司，但你的发展速度仍然可以快 10 倍，并且能生产出好 10 倍的产品。来源：www.youtube.com

18分钟

聊聊刚发布的《美国AI行动计划》

刚刚发布的《赢得竞争：美国AI行动计划》的重要文件。计划列举的三大核心支柱： * 加速AI创新，这包括减少监管障碍、促进言论自由的AI系统以及鼓励开源AI开发； * 建设美国AI基础设施，重点在于简化数据中心和半导体制造设施的审批流程、升级电网并培养AI相关劳动力； * 以及引领国际AI外交和安全，致力于向盟友出口美国AI技术、对抗中国在国际AI治理中的影响力以及加强AI计算和半导体制造的出口管制。来源：https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf

11分钟

聊聊字节Seed的同声传译大模型

字节Seed 团队刚刚发布的端到端同声传译大模型，准确率70%，时延在3秒以内。未来应该是翻译耳机和跨语言视频会议的标配。 Seed LiveInterpret 2.0 技术报告已公布，模型基于火山引擎对外开放，Ola Friend 耳机也将在 8 月底接入 Seed LiveInterpret 2.0，成为首个支持该模型的智能硬件设备。技术报告：arxiv.org 项目主页：seed.bytedance.com

9分钟

访谈精华｜超级酷的AI公司Every

来自Lenny和Every创始人Dan Shipper的访谈。 Every 在探索 AI 的可能性方面走在行业最前沿，仅有15名员工，已经开发并上线了4款产品，同时发行每日新闻通讯，还发展了咨询业务，每个人都是六边形战士。摘要： * 对AGI的新定义：agent可以一直开着，独立运行，且有利可图。就像青少年长大后可以自己生活。目前Claude code可以做到20-30分钟，就像一个两三岁的婴儿一样。 * Claude code是最被低估的非编程产品，跳过命令行，你可以发号施令，直接完成任务，而不是像cursor一样关注怎么写代码。比如整理分析会议纪要，模仿《战争与和平》的文风。 * 一家公司能否成功采纳 AI，唯一的预测指标是：CEO 自己是否每天使用 ChatGPT 等工具。来源：www.youtube.com

19分钟

Scott Wu回忆收购Windsurf的来龙去脉

Scott Wu 是 Cognition 的联合创始人兼首席执行官，该公司推出了世界上第一个 AI 软件工程师 Winsuft创始团队带着少数几个骨干抛弃了剩下的团队，到Google去了。上周五，Cognition 收购了 Windsurf被留下来的团队。收购动机：我们Cognition的重点尤其在于核心工程和产品团队，而显然，Windsurf已经建立了一个了不起的市场推广团队，营销团队，财务运营团队。类似地，在产品方面，我们发现它实际上有一个非常自然的互补倾向。所以我们周五晚上主动联系了他们，对Windsurf创始人的吐槽：作为创始人，有一项不成文的约定，即要与公司共存亡。无论好坏，在过去一年里，这种约定有所改变，坦白说，这有点令人失望。

25分钟

92

Manus联创On“做Manus学到的教训”

来自Manus的联合创始人、技术负责人Peak（季逸超）分享了一篇技术博客：Context Engineering for AI Agents: Lessons from Building Manus。 * 我上一个创业公司的惨痛教训，我从头开始为开放信息提取和语义搜索训练模型。然后 GPT-3 和 Flan-T5 出现了，我的内部模型一夜之间变得无关紧要。 * Manus 将押注于上下文工程。我们能够在几小时内而非几周内推出改进，并使我们的产品与底层模型保持正交——如果模型进步是上涨的潮水，我们希望 Manus 成为那条船，而不是固定在河床上的柱子。 * 模型会盲目模仿上下文中的行为模式。Manus 通过引入结构化变化（如不同措辞或顺序），避免模型在长任务中陷入复制粘贴式幻觉。来源：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

10分钟

和Sam聊聊他刚发布的ChatGPT Agent

OpenAI凌晨发布了ChatGPT Agent。产品增加，但OpenAI的官网和产品都越来越简洁了，感觉他们的产品力非常不错。 * 整合 Operator + Deep Research + ChatGPT 三个产品，用户只需描述任务，ChatGPT Agent 就能自主判断所需工具，自动访问网页、提取信息、运行代码、生成 PPT 或表格等，并可在执行过程中实时展示相应步骤、接受临时中断和修改指令。 * 内置图形/文本浏览器、终端和 API 调用器等工具，支持手机端使用，任务完成后可自动推送结果； * 可连接 Gmail、GitHub 等第三方应用，深度嵌入用户真实工作流； * Pro 用户每月享有 400 条调用额度，其他付费用户为 40 条，并支持按需扩展token。来源：https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/

9分钟

OpenAI前员工Calvin的离职感想

来自前 OpenAI 员工 Calvin 的离职感想，原题为《Reflection on OpenAI》，回顾了自己在 OpenAI 工作一年多的经历。摘要： * 扩张速度：我入职时公司刚过千人规模，一年后已突破三千人，而我的司龄竟排在前 30%。几乎所有管理层现在从事的工作与 2-3 年前都截然不同。 * OpenAI 有个与众不同的特点：所有工作——我是说所有——都在 Slack 上完成。这里没有电子邮件文化。 * OpenAI 采用了一个巨型单体代码库，主要使用 Python（尽管 Rust 服务正在增多，还零星分布着用于网络代理等功能的 Golang 服务）。来源：https://calv.info/openai-reflections

8分钟

Perplexity创始人在YC的访谈精华

最近Perplexity CEO阿拉温德·斯里尼瓦斯（Aravind Srinivas）与YC合伙人戴维·利布（David Lieb）的对谈。览器和智能体才是我们真正的战略重点。我们看待智能体的方式是，它不完全是一个自主的AI，而是一个能够协助你的工具。我们希望打造一个多功能工具，既能查询信息，又能完成任务。无论你是在新标签页还是浏览网页，AI都会作为助手陪伴着你。我们希望将浏览器打造成认知操作系统，甚至像一个云平台，能够同时并行处理多个任务，这些任务可以异步运行。新的浏览器将能够整合你的个人信息、邮箱、日历、亚马逊账户、社交媒体等内容，进行并行处理和研究，比如房产市场、股市等。这些都会在浏览器的后台完成，过去这些是无法实现的。而当Chrome的每个标签页都是独立进程时，我们就开始看到这样的可能性。你可以想象，每个查询或每条指令都能像独立进程一样运行，这正是我们接下来推出的新浏览器——Comet的核心功能。因此，我们目前所有的精力都集中在这一块。来源： www.youtube.com https://mp.weixin.qq.com/s/gKH2jqtVexTGkbYLDB0T2Q

11分钟

访谈精华 | 一人公司新传奇Base44

以色列独立开发者，真一人公司Maor Shlomo，开发了AI Coding工具——可以生成前后端+数据库的全栈无代码平台 Base44。6个月后以8000万美元卖给Wix公司。原视频是Lenny和Maor Shlomo的对谈，时长91分钟。摘要： * Aha Moment的关键是模型理解用户需求，用户能快速看到生成的应用，中间多一个步骤，惊喜感就会减弱。 * Base44 里用于写代码的模型，我会按不同任务搭配使用。比如 Claude 4 在开发应用初始阶段和 UI 设计方面很出色；Gemini 在处理复杂问题、设计算法，或者 Claude 4 陷入代码错误循环时表现优秀。我构建了一个流程，先分析用户提示，再分配给合适的模型，效果很好。 * 要保证至少 50% 的时间花在自己真正喜欢且擅长的事情上，这样每天才有动力工作。来源：https://www.youtube.com/watch?v=L9KvV_UOs3A

11分钟

聊聊昨天夜里发布的Kimi K2模型

昨天夜里 Kimi K2 模型发布，并同步开源。 Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型，总参数 1T，激活参数 32B。在榜单方面，它在SWE Bench Verified（编程）、Tau2（智能体）、AceBench（工具调用）这三项基准测试中是开源模型表现最好的。来源：https://mp.weixin.qq.com/s/2RPmHf_8KqIjXbY5jLdztQ

7分钟