主播
节目简介
来源:小宇宙
「一线开发者看到的前排变化。」
本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。
这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。
我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 与 RL 生态的创业机会。
这是我们本年关于 Agent 的第 8 期节目。
本期嘉宾:
Bethany Wang,Precur 联创
戴涵俊,Precur 联创
Henry Yin,MoE Capital 创始合伙人
Naomi Xia,MoE Capital 创始合伙人
本期主播:
程曼祺,晚点 LatePost 科技报道负责人
时间线:
-基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2
06:11 AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA
14:25 GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在
19:09 Gemini 3 后,OpenAI、Anthropic、Google、各自的进展
22:15 NotebookLM 和 Nano Banana 策源地——Google Labs,不仅招工程师,也有主编、作家、创作者
24:54 DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持
26:34 Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端)
30:18 Google TPU 已经更多对外,这对英伟达 GPU 优势的影响
38:02 回顾组织变化:DeepMind 和 Google Brain 的合并与磨合
-大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会
43:31 垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现
50:17 技术新趋势——自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案
53:32「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling)
59:44 RL 创业方向:RL 环境,RL as a Service,RL 应用
01:08:47 Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣
01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式
01:17:13 开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1/3 人在看 DeepSeek-V3.2 技术报告
01:22:04 选择模型时,关注什么 benchmark & 为什么?
01:29:34 模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化
01:38:58 连点成线:往期节目推荐
《晚点聊》今年关于 Agent 的更多节目:
晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
晚点聊 110 期:《与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专》
晚点聊 111 期:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端
晚点聊 130 期:手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机
晚点聊 136 期:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|
晚点聊 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起
晚点聊 138 期:从你用手机到它更懂你,OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI
附录:
本期中提到的一些 benchmark:
-GDPVal:OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark,强调输出是否符合人类偏好而不只是“做对题”。
-ARC-AGI-2:ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力,被视为接近“通用智能门槛”的挑战集。
-OfficeQA:Databricks 今年 12 月发布的、围绕办公场景(文档、表格、邮件、日程等)的 benchmark,用来评估模型在真实工作流中的信息检索、理解与执行能力。
本期中提到的一些产品/服务、公司
-PTC(Programmatic Tool Calling):Anthropic 今年 11 月底发布的一种新的工具调用方法
https://www.anthropic.com/engineering/advanced-tool-use
-Tinker:Thinking Machines Lab 今年 10 月发布的首个对外产品
https://thinkingmachines.ai/blog/announcing-tinker/
-Preference Model:一家旧金山初创企业,做强化学习环境
剪辑制作:甜食、Nick
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
本期是 137 期 Agentic 工具链节目的嘉宾返场,Henry 和 Naomi,他们近期刚刚和普林斯顿 AI 加速创新中心联席主任,王梦迪教授,一起成立了一家新的早期 VC,MoE capital。
这次一起的也有两位之前在 Google DeepMind 和 谷歌云 Vertex AI 平台工作 7 年,刚刚创业,成立 Agent 工具层公司 Precur 的戴涵俊和 Bethany。
我请他们分享了,岁末年初,在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 与 RL 生态的创业机会。
这是我们本年关于 Agent 的第 8 期节目。
本期嘉宾:
Bethany Wang,Precur 联创
戴涵俊,Precur 联创
Henry Yin,MoE Capital 创始合伙人
Naomi Xia,MoE Capital 创始合伙人
本期主播:
程曼祺,晚点 LatePost 科技报道负责人
时间线:
-基础模型竞争和幕后故事:Google 在旧金山开 Gemini 3 Party 的同一天,OpenAI 发布 GPT-5.2
06:11 AI 进入实用工作:OpenAI 的 GDPval,Databricks 也发布了 Office QA
14:25 GDPval 在主流知识工作上表现优秀,但基础模型处理长尾问题的 gap 始终存在
19:09 Gemini 3 后,OpenAI、Anthropic、Google、各自的进展
22:15 NotebookLM 和 Nano Banana 策源地——Google Labs,不仅招工程师,也有主编、作家、创作者
24:54 DeemMind 研究员 Orio:Gemini 3 的秘密?预训练还有很多空间;TPU 对 Google 训练的加持
26:34 Google 的 3 层协同优化:从 TPU 到 Infra 到模型;模型和应用;数据和硬件 surface(终端)
30:18 Google TPU 已经更多对外,这对英伟达 GPU 优势的影响
38:02 回顾组织变化:DeepMind 和 Google Brain 的合并与磨合
-大厂竞争中,新公司的成长:围绕 RL 与 Agent 的创业机会
43:31 垂类的机会:弥补基础模型到具体问题的差距;水平的机会:调度层、数据层、工具层都有新公司涌现
50:17 技术新趋势——自我演化:RL、用 RAG 加长记忆有人尝试,但远不是成熟方案
53:32「可训练的工具层」背后的技术变化:code 驱动工具,如 Anthropic 的 PTC(Programmatic Tool Calling)
59:44 RL 创业方向:RL 环境,RL as a Service,RL 应用
01:08:47 Agent 开发者挑选模型的前置条件:用什么云(比如 Azure 客户用不了 Gemini),再看云厂商折扣
01:12:20 Anthropic 的 Claude Code 已成为 Agent 核心,刚发布的 Promatic to Call 探索新开发范式
01:17:13 开源模型使用体验:Qwen 很棒;驶往 NeurIPS 的飞机上,1/3 人在看 DeepSeek-V3.2 技术报告
01:22:04 选择模型时,关注什么 benchmark & 为什么?
01:29:34 模型优化方向预测:加入大量 agent trace 的开源模型,更强的多模态,长程任务优化
01:38:58 连点成线:往期节目推荐
《晚点聊》今年关于 Agent 的更多节目:
晚点聊 106 期:与真格戴雨森长聊 Agent:各行业都会遭遇“李世石时刻”,Attention is not all you need
晚点聊 110 期:《与明势夏令聊Agent竞争:通用入口之战就要来,创业要做垂、做专》
晚点聊 111 期:Pokee.ai 朱哲清的 Agent 造法:强化学习作后端,语言模型作前端
晚点聊 130 期:手机Agent大幕拉开!从刚上线的AutoGLM 2.0聊起,大模型如何改造手机
晚点聊 136 期:Sora新世界 & Lovart 4个月复盘 | 与陈冕聊怎么做垂类Agent|
晚点聊 137 期:Agent 是机会,造 Agent 的工具也是|从OpenAI开发者日聊起
晚点聊 138 期:从你用手机到它更懂你,OPPO的手机AI实践 |与小布负责人万玉龙聊端侧AI
附录:
本期中提到的一些 benchmark:
-GDPVal:OpenAI 今年 10 月发布的、用于评估大模型在复杂推理与决策场景中“价值对齐与结果质量”的验证型 benchmark,强调输出是否符合人类偏好而不只是“做对题”。
-ARC-AGI-2:ARC Prize 今年 3 月发布的、用于测试模型在少样本条件下的抽象、组合推理能力,被视为接近“通用智能门槛”的挑战集。
-OfficeQA:Databricks 今年 12 月发布的、围绕办公场景(文档、表格、邮件、日程等)的 benchmark,用来评估模型在真实工作流中的信息检索、理解与执行能力。
本期中提到的一些产品/服务、公司
-PTC(Programmatic Tool Calling):Anthropic 今年 11 月底发布的一种新的工具调用方法
https://www.anthropic.com/engineering/advanced-tool-use
-Tinker:Thinking Machines Lab 今年 10 月发布的首个对外产品
https://thinkingmachines.ai/blog/announcing-tinker/
-Preference Model:一家旧金山初创企业,做强化学习环境
剪辑制作:甜食、Nick
小红书@曼祺_火柴Q即刻@曼祺_火柴Q
☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。
关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
评价
空空如也
小宇宙热评
阿斯特罗
2个月前
浙江
19
全是热门词汇的堆砌,前20分钟啥见解都没产出,一群浮夸又自满的职业打工人。
works_YGNP
2个月前
北京
13
听着太累
Gigi_Wang
2个月前
四川
10
我是英语专八的 我绝不要这样说话
乘风而歌
2个月前
上海
9
小香蕉图片呢
abcdk
2个月前
北京
7
中英夹杂听起来费劲
HD441606z
2个月前
广西
6
干货满满,为啥还有这么多人挑刺中英文混杂呢
曼祺_MatchQ
2个月前
北京
5
新一期~
与两位 Google 工作七年的创业者和 137 期的嘉宾 AGI house 的 Henry 和 Naomi 聊岁末年初的湾区动向。
Melody梅
2个月前
北京
4
内容不是很懂,是同行之间的对话,感觉比较真实,但对纯中文听众的确不太友好。事实是,在美国工作时间长的人平时很多都这样说话,因为很多概念和词汇是从英文学的,能流利转化成中文需要很高的语言能力,对搞技术的人来说要求有点高。
HD269954d
2个月前
陕西
4
装死你俩 …
Wendy文文
2个月前
北京
3
MoE Capital 这个名字起的不错
我是小排
2个月前
上海
3
原始的 nano banana 的美甲照片呢?
太上老菌
2个月前
江西
2
这期节目真不戳
good_luck
2个月前
河南
2
57:22 内容还是不错的 表达也很重要
徐行Action
2个月前
北京
2
06:47 在路上听到第6分钟,发现还是嘉宾在做以我介绍,我都有点恍惚
呱唧呱唧呱唧呱呱
2个月前
安徽
2
感觉对话剪辑没做好,听不懂每个人的问题和观点是啥,比较杂乱;建议重新搞搞
都在我的计划当中
2个月前
上海
1
前面嘉宾介绍的剪辑貌似有问题……听的不舒服
反向弯曲
2个月前
上海
1
这集感觉干货满满,收益很多
HD482599d
2个月前
广东
1
不小心露出东北口音了,怎么一直装native speaker 呢,听着咋那么烦人呢
子洋Eric
2个月前
北京
1
47:58 挺有意思的认知
Riopold
2个月前
广东
0
最近在模型效果评估上有一些困惑,许愿聊几位应用层评估的大佬,能够开阔一下思路🙋