播客: 海外独角兽 - EarsOnMe - 精选播客，一听即合

播客简介

全球投资平台拾象科技和开源研究平台「海外独角兽」出品的声音栏目。作为一个开源研究平台，「海外独角兽」在过去 3 年时间中研究并开源发布了近 200 篇深度研究，既有对 150+ 全球头部独角兽公司的深度分析，也有 Top-Down 对行业趋势的宏观研判，还包括我们走访硅谷、和全球头部科技公司从业者、投资人交流后的一线体感。在这档全新的播客节目中，我们将延续海外独角兽开源精神，用声音传递最先锋的科技观察、链接全球优秀的大脑，抹平信息鸿沟。欢迎订阅收听。如果您想对我们有更多了解，可以微信搜索「海外独角兽」（id：unicornobserver）关注我们的公众号，获取更多深度研究、一线观察。

创作者

海外独角兽 1 档播客

节目

为什么“高价值任务”变成了所有模型公司的第一优先级？｜拾象 AGI 备忘录

海外独角兽

💡 本期简介 2025 年底，拾象在年度预测里写过一句很激进的预测，“我们可能是最后一代白领”。在 2026 过去将近 1/3 之后，它看起来更像是一件正在发生的事实。过去一个季度，模型的进步幅度几乎比过去一年更快，就在今天 Anthropic 又发布了自己的最新一代模型 Opus 4.7。另外一个值得关注的趋势是头部 AI labs 的战略也开始迅速对齐， coding 从“重要场景之一”，变成几乎所有 AI labs 的 T0 级战略，而市场的竞争重点也从争抢 chatbot DAU，转向争抢 Top 1% 用户，希望先拿下围绕知识工作者的“高价值任务”。本期内容是「年更播客」的复更第一期，拾象的四位同事从湾区和北京连线，聊 Coding AGI、聊 Harness、聊黄仁勋在 GTC 2026 上的两张图、聊 Multi-Agent、聊二八定律，也聊一个没法回避的哲学问题：如果 execution 都被 AI 吃掉了，人该做什么？我们也希望从这个春天开始，将内部的思考和争论搬到麦克风前，以声音的形式更多的和大家交流。欢迎收听，也欢迎留下你们的建议和想听的话题。 🎙️ 本期声音 * Penny | 拾象联合创始人、海外独角兽发起人； * Cage | 拾象 AI research lead，关注一级市场； * Feihong | 拾象二级市场研究员，覆盖全球软件与硬件； * Siqi | 拾象&海外独角兽内容负责人； 🧭 关于我们海外独角兽是拾象科技旗下的 AI 开源研究平台，本播客聚焦硅谷 AI 前沿观察，和全球 AI 最权威的声音对话。不定期更新，欢迎订阅。公众号｜小红书｜小宇宙本期你会听到 * 过去一个季度硅谷到底发生了什么，为什么 AI 研究员和工程师们都开始感到“朝不保夕”？ * 价值公式正在从 “DAU × 广告 ARPU” 向“token 消耗 × 任务单价”转移 * 为什么硅谷反而没有出现“龙虾热” * 真正做生产级 Harness 的为什么只能是模型公司 * 黄仁勋在 GTC 2026 上的两张图到底想说什么 * 过去几乎不投硬件的硅谷 VC 为什么最近一两个月突然集体转向 * 80% 的 token 和 80% 的 spending 为什么是两件事 💡 Highlights * 00:02:32 硅谷的气氛变了：从线性进步到一个季度一次质变，“最后一代白领”正在成为事实 * 00:06:31 Coding 先 AGI：人写代码的比例从 70 到 80% 降到 5% 以下；AI research 半自动化的闭环最吓人 * 00:09:57 Harness ：为什么国内龙虾热之后紧跟着卸载热，真正做生产级 Harness 的为什么只能是模型公司 * 00:18:33 OpenClaw的四点启发：IM 作为入口、预装 skills 生态、harby + cronjob 给 agent 装时钟、soul 做人格层 * 00:23:54 GTC 2026 上值得被关注的两张图 * 00:26:41 OpenAI 关停 Sora 力推 CodeX、Anthropic 押注财务、法律和健康，背后是 40 万亿美元的白领工资池 * 00:31:54 抛掉互联网旧地图：用户量不再是价值创造的充分条件，ToC / ToB 的分类正在瓦解 * 00:34:26 执行层被 AI 吃掉之后，选择这件事会被进一步重新定价 * 00:41:54 如何避免 Multi-Agent 让 95% 的成功率乘出一场灾难 * 00:47:48 硅谷 VC 集体投芯片到底发生了什么变化？ * 00:53:58 二八定律：80% 的 token 来自平价模型，但 80% 的 AI spending 会花在 20% 的顶尖模型上；人类会 FOMO 于没雇到最好的 agent 🔗 延伸阅读 * 拾象 2026 AI Best Ideas：20 大关键预测 * Harness is the New Dataset：模型智能提升的下一个关键方向 ⚙️ 制作团队出品：拾象科技策划制作：Siqi，Celia 音频制作：雨烨

70分钟

2k+

3周前

E13 和 Macaron 创始人陈锴杰聊：RL + Memory 让 Agent 成为用户专属的“哆啦 A 梦”

海外独角兽

最近，我们观察到 AI 市场开始出现了一些新变化：随着 ChatGPT 加入记忆功能，AI 的角色正发生有趣的转变——它不仅是帮你写代码、做 PPT 的小工具，还有潜力成为一个真正懂你的生活伙伴。同时，Agent 开发进入了更成熟的阶段。过去大家主要依赖 prompt 技巧，如今通过强化学习和记忆系统，开发者可以训练出既有情商、又能生成小工具的智能体。这两个趋势的叠加，推动 AI Agent 可以更加个性化、专业化地完成用户任务。本期节目，我们邀请了 Macaron 创始人陈锴杰。他是 95 后连续创业者，曾打造 300 万用户的互动故事平台 MidReal。他将和我们聊聊如何把 Memory 当作一种智能能力进行训练，并分享强化学习在 Agent 开发中的重要性。锴杰坦言，Macaron 还有巨大的优化空间，100 分里只会给 7-8 分。但他相信，Personal Agent 将成为像社交软件一样的超级赛道。如果你对 AI Agent 如何与我们的生活交互感兴趣，请千万不要错过这期内容！ 00:05:24 把 Memory 当成智能能力训练：Memory 不是目的，而是方法 00:11:01 如何进行冷启动——让用户第一天就感到“被理解”？ 00:15:51 如何用 Multi-Agent 技术平衡“高情商的朋友”和“高智商的助理” 00:18:59 Macaron 的愿景是做一个生活方式的分享平台 00:22:36 AI Sub Agent 的“进化论”和记忆传递方式 00:35:55 为什么强化学习（RL）是 Agent 智能提升下半场的核心？ 00:39:42 All-sync RL 技术：把 RL 训练速度从周压缩到天，实现产品快速迭代 00:43:15 RL infra 很难像云服务一样标准化 00:55:03 三个真实用例带来的 Aha Moments 00:58:36 社交软件领域给 AI Agent 开发带来的思考 01:06:21 如何思考 OpenAI 等巨头在个人 Agent 领域带来的竞争？ Character.AI：个性化的 ChatGPT，AI 大模型时代的 UGC 平台 Agent 最全 Playbook：场景、记忆和交互创新 RL 是 LLM 的新范式对 DeepSeek 和智能下半场的几条判断 Claude 4 核心成员：Agent RL，RLVR 新范式，Inference 算力瓶颈 CoT（Chain-of-Thought，思维链）：指在训练大模型时，把推理过程逐步写出来，而不是只给最终答案。 RAG（Retrieval-Augmented Generation，检索增强生成）：模型生成答案时，先从知识库/外部文档里检索相关内容，再用检索结果辅助生成。 Context Engineering（上下文工程/上下文设计）：一种更系统的 prompt 设计方法，把相关的背景信息、任务指令、示例等整合到输入里。 Multi-Agent 架构（多智能体架构）：指将不同功能的模型拆分为多个 Agent，每个 Agent 专注于某一类任务（如对话、代码生成），通过协作与协议完成整体目标。 Sub Agent（子代理 / 小工具）：在 Personal Agent 中生成的专属小程序，用于解决具体生活或工作任务（如饮食规划、健身记录、日记管理）。它们由主 Agent 调用或生成。 Router（任务路由）：在 Multi-Agent 系统中，负责把用户请求或上下文信息合理分配给不同的 Agent（如聊天 Agent、Coding Agent），确保任务由最合适的模块完成。 on-policy（同策略训练）：强化学习中的一种训练方式，模型完全基于自己生成的数据来更新参数，而不是依赖外部静态数据集，能让训练目标更直接对齐实际环境。 online training（在线训练）：指模型在上线运行过程中，根据用户实时反馈或交互数据不断更新和优化，相比批量离线训练更能快速适应用户需求。 all-think RL / all-sync RL（全同步强化学习）：一种优化强化学习训练效率的方法。通过同时调度训练（trainer）和推理（inference），减少 GPU 资源空转，把训练时间从“按周”压缩到“按天”。 GPU bubble（GPU 气泡）：在训练大模型时，由于训练和推理交替不均衡，导致 GPU 算力出现空闲、被浪费的现象。优化方法目标就是尽量“挤掉泡泡”。 expert parallelism（专家并行）：大模型训练中的并行方式，把模型拆分为多个“专家模块”（Experts），不同 GPU 分别负责部分专家，提升效率。常见于 Mixture-of-Experts （MoE）模型。 pipeline parallelism（管线并行）：大模型训练中的并行方式，把神经网络的不同层分配到不同 GPU 上，像流水线一样依次传递数据，解决模型过大无法放入单卡的问题。

70分钟

1k+

7个月前

E12 和 Memories.ai 创始人 Shawn 聊：如何给 AI 做一套“视觉海马体”？

海外独角兽

过去几年，AI 的巨大突破赋予了机器语言的力量，而下一个前沿在于赋予 AI 关于世界的记忆。当大模型只能分析短暂的视频内容时，一个根本性的鸿沟依然存在：虽然 AI 能够处理信息，但却无法真正地“记住” 信息。可如今 AI 的发展瓶颈已不再是“看见”，而是如何保留、索引并回忆来构成我们现实世界的视觉数据流。我们认为，Memories.ai 正在构建一条不同的路径。这家公司成立于 2024 年，由前 Meta Reality Labs 的华人研究科学家沈俊潇（Shawn Shen）博士和周恩旻（Ben Zhou）联合创立，他们致力于打造一个基础性的视觉记忆层，目标是成为所有 AI 的“海马体” 。上个月，Memories.ai 推出了大型视觉记忆模型 LVMM，这不是单一的端到端模型，而是仿照人脑、通过工程化实现的视频记忆系统，能压缩、索引、查询无限量视频数据，让 AI 不止能看，更能真正记住和回忆。本期节目，我们邀请到了 Memories.ai 创始人 Shawn。在 Shawn 看来，真正类人的记忆本质上是视觉的，而非文本的。他将结合自己的创业思考，和我们分享 LVMM 的构建理念、技术挑战，以及对 memory 的未来想象。 02:07 视频生成与视频理解的差异，创业公司选择视频理解与记忆的原因 03:55 文本记忆与视觉记忆的本质区别，现有 AI 记忆多为“上下文工程” 05:05 人类长期记忆的类型及与 AI 记忆机制的对应关系 08:43 视频是原始数据（raw data），需通过抽象压缩实现理解与检索 10:02 多模态代理（multimodal agents）将成为未来趋势，multimodal prompting 的重要性 11:43 LVMM（大型视觉记忆模型）的设计理念及人类记忆机制的模拟 15:03 LVMM 的关键模块：压缩层、索引、聚合、数据库服务 17:39 与 RAG 的区别：VRM（视觉检索模型）路径 19:06 记忆与理解的关系，长期看理解力有助于记忆力 21:16 应用场景 1：安防领域的实时检测与商业价值 23:12 应用场景 2：媒体与短剧制作的全流程解决方案 23:46 应用场景 3：视频营销与创意引擎，索引 TikTok 热门视频 24:29 视频营销中的网红达人发现与内容创意支持 >> 对谈 Pokee CEO 朱哲清：RL-native 的 Agent 系统应该长什么样？｜Best Minds >> 专访 Luma AI 首席科学家：我们更相信多模态的 Scaling Law >> 专访月之暗面杨植麟：lossless long context is everything >> 专访 VideoPoet 作者：LLM 能带来真正的视觉智能 >> 专访 Pika Labs 创始人：探索视频生成的 GPT 时刻 Memories.ai：是一家专注于长期视频语境理解和视觉记忆建模的 AI 初创公司，公司核心技术 Large Visual Memory Model 为 AI 构建类似人类的“视觉记忆层”，让 AI 能在海量视频数据中持续存储、理解、检索并建立关联记忆。与传统仅能处理短视频的系统不同，Memories.ai 的平台可分析高达 1000 万小时的视频内容，实现噪声压缩、索引、自然语言搜索、标签化和内容聚合等功能。上下文腐败（context corruption）：在大模型领域尤其是注意力机制（attention mechanism）下，指的是当模型处理超长上下文时，原本在上下文中已有的关键信息被逐渐稀释、扭曲或遗忘，导致模型在后续生成中对早期信息的引用不准确甚至错误。 LVMM（ Large Visual Memory Model）：是 Memories.ai 推出的核心技术系统，目的是为 AI 打造类人的视觉记忆能力，被称为所有 AI 的 “海马体”。但这个模型并非单一的端到端模型，而是一个受人脑记忆系统启发的复杂系统，主要功能是通过工程化方式实现对无限量视频数据的压缩、索引、查询和记忆。 VRM（Visual Retrieval Model）：是 Memories.ai 处理视觉记忆的关键模型，用于直接处理视频数据，包含视觉编码过程，需决定如何 “灌入” 数据。它与 RAG 工作路径不同，RAG 是重新组合上下文给大模型处理，而 VRM 对基础设施要求更高，在 LVMM 系统中通过对视频分词等处理，可以为后续聚合、检索等环节提供支持。

35分钟

1k+

8个月前

E11 和 Chai-2 核心科学家乔卓然聊「AI 抗体设计」：分子生成平台是药物研发的 GPU

海外独角兽

AlphaFold 3 获得诺贝尔奖是 AI 在生物领域的重要里程碑，是生命科学领域中“foundation model 时刻”的典型代表，但蛋白质结构预测只是科研闭环的起点，只有当模型的能力从“预测结构”迈向“直接生成分子”，新药开发效率才能实现真正的指数级提升。 Chai Discovery 这家公司正是在 AlphaFold 方向上复现开源最快的公司。去年 9 月获得了 Thrive 和 OpenAI 3000 万美金的种子轮投资，估值达到 1.5 亿美金。他们的模型 Chai-1 选择的技术路线是用 Diffusion 模型做结构预测，和 AlphaFold 路线接近。今年 6 月 30 日，他们又发布了新模型 Chai-2，它在零样本的前提下能自动生成有效的抗体结构，命中率高达 16%，是传统噬菌体筛选技术命中率的百倍，还具备极强的可扩展性，也就说，可以在几个小时内，为任何一个靶点设计出可实验验证的候选分子。可见 Chai 的目标并不是 AI 辅助制药，而是构建“AI-native 制药”平台，把科学问题转化成工程问题。本期内容我们邀请到了 Chai Discovery 的创始科学家乔卓然，卓然曾在 Iambic Therapeutics 担任 Senior Research Scientist，2025 年起，他作为创始团队成员和 AI 科学家加入了 Chai Discovery，是 Chai-2 模型的核心贡献者。他将结合自己科研经历，和我们分享了 Chai-2 的模型架构、实验成果，以及 AI 在药物发现领域真正的突破口。 One More Thing：本期文字稿可见 👉 对谈 Chai-2 核心科学家乔卓然：抗体生成成功率提升百倍，分子生成平台是药物研发的 GPU｜Best Minds 00:06:00 Diffusion Model 带来了建模范式的根本改变 00:08:10 AlphaFold 2 给模型的架构扫平了很多障碍 00:16:28 Chai 团队的最大特点是具备第一性原理 00:18:00 Chai-2 和 AlphaFold 有什么不同？ 00:21:42 蛋白质结构设计是结构预测的逆问题 00:29:56 Chai-2 相较于 Chai-1 最大的进步是从预测过渡到了生成 00:34:21 Chai-2 将药物开发周期从数月缩短到两周 00:37:56 在零样本前提下，Chai-2 能设计出具备 binding 活性的抗体，成功率高达 16% 00:45:37 模型的结构预测能力决定了模型上限 00:51:59 在所有 de novo 抗体设计或 binder 设计中，模型早已超越了人类的能力 01:00:04 分子生成平台对药物研发的作用将像 GPU 对 AI 的作用一样 01:04:15 Zero-shot 更接近药物设计的本质 01:05:14 合成数据是连接实验数据和生物学理论的“第三模态” 01:12:43 未来 AI for Science 公司的商业模式是“平台即 IP” >> 对谈 Chai-2 核心科学家乔卓然：抗体生成成功率提升百倍，分子生成平台是药物研发的 GPU｜Best Minds >> 对谈斯坦福 Biomni 作者黄柯鑫：AI Scientist 领域将出现 Cursor 级别的机会｜Best Minds >> Chai Discovery：OpenAI 投资的 AI4Sci 公司，AlphaFold 最快追赶者 >> Isomorphic Labs：DeepMind 创始人再创业，打造制药界的 TSMC >> FutureHouse 联合创始人：AI Scientist 不是“全自动化科研” >> AI4Science 图谱，如何颠覆 10 年 x 20 亿美金成本的药物研发模式 >> OpenEvidence，医疗领域诞生了第一个广告模式 Chatbot >> Flagship 创始人：AI for Science 的下一步是 Multi-agent >> Anthropic 创始人最看好的领域，AI for Science 深度解读 Chai Discovery：这是一家成立于 2024 年的 AI 初创公司，专注于通过 AI 预测和再编程生化分子结构，加速新药研发进程。去年 9 月获得了 Thrive 和 OpenAI 3000 万美金的种子轮投资，估值达到 1.5 亿美金。他们的模型 Chai-1 选择的技术路线是用 Diffusion 模型做结构预测，和 AlphaFold 路线接近，今年 6 月又发布了最新模型 Chai-2。 Score-based generative modeling：这是一种生成模型方法，核心思想是学习数据分布的“score function”，即对数密度函数的梯度。与传统的生成对抗网络或变分自编码器不同，这种方法不直接生成样本，而是通过一个随机微分方程从噪声出发，逐步将样本转化为数据分布中的真实样本。 Entos AI（现称 Iambic Therapeutics）：是一家 AI 驱动小分子药物发现初创公司，依托自身专有的 OrbNet 平台，将量子力学融入机器学习，加速预筛选化合物、提高准确性。卓然的 PhD 导师 Tom Miller 是创始人兼 CEO。 NeuralPLexer2 和 NeuralPLexer3：这是由 Caltech 的 Thomas F. Miller III 等人在内的研究团队开发的一系列用于大规模分子结构预测和生成的深度学习模型，主要面向量子化学和计算分子科学等领域。这些模型在保留物理精度的同时，大幅提升了计算效率。酵母展示和噬菌体展示：这是两种常见的体外蛋白筛选技术，用于发现与特定靶标具有高亲和力的抗体或蛋白分子。它们通过将蛋白质或抗体片段表达在微生物（如酵母或噬菌体病毒）表面，然后利用筛选和富集过程找到目标结合物。 Lab-in-the-loop optimization：是一种将实验反馈与机器学习模型相结合的优化方法，常用于蛋白质或药物分子设计流程中。该方法通过迭代过程进行优化，模型首先生成候选序列，随后通过实验验证性能，再将实验数据反馈给模型，来指导下一轮设计。通过这种方式，能够持续提升设计的效率和准确性。这种方法代表了一种“模型+实验”协同进化的设计理念，与完全依赖模型的“零样本生成”策略不同。 DockQ：用于评估蛋白质复合物对接质量的综合评分指标，介于 0 和 1 之间，数值越高表示预测结构越接近真实结构。通常，DockQ > 0.23 被视为是正确对接的阈值，用以判定一个复合结构是否可信。 Humira：这是全球首个由噬菌体展示技术筛选获得并成功商业化的全人源单克隆抗体药物，最初由 Cambridge Antibody Technology（后并入阿斯利康）开发，并由 Abbott（现为 AbbVie）推广上市。

80分钟

99+

9个月前