简介...
美国时间7月17日,OpenAI终于迎来了它的“Agent时刻”——通用型ChatGPT Agent正式发布。它整合了深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但仍存在速度慢、个性化不足等短板。
ChatGPT Agent的技术本质是“浏览器+沙盒”的混合架构,与Manus、Genspark形成技术路线差异。在底层架构层面,浏览器(Browser-based)代理虽堪称“万能”,但运行速度较慢;沙盒(Sandbox)代理高效,但无法联网操作、工具库受限;而工作流集成(Workflow API)速度快、结果精准。在训练方法层面,强化学习(RL)被视为AGI从“执行者”向“创新者”跨越的重要路径,但当前面临的验证泛化与训练不稳定难题,如同两道枷锁锁住了这扇进阶之门。
强化学习能否成为通用AI爆发的关键引擎?AGI实现技术跃迁的分水岭究竟在哪?在把Agent产品化和商业化的道路上,又如何平衡模型能力与用户体验?本期《硅谷101》,主播泓君对话Pokee.ai创始人朱哲清,多维度测评ChatGPT Agent使用体验,并深入拆解Agent的四大底层设计逻辑、探讨强化学习的训练路径,以及我们迎接“超级智能时刻”所面临的技术挑战。
【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
朱哲清,Pokee.ai创始人,前MetaAI应用强化学习团队负责人,斯坦福强化学习博士
【101 Weekly新节目预告】
硅谷101上线了一版更加轻量级的音视频节目「101Weekly」,每周由我们的三位主播复盘三个商业热点事件,每期10分钟左右,并请来行业专家来一手分析解读,希望这每周的30分钟,帮助大家轻松了解一周新闻大事件,点击收听。
音频版:Fireside|小宇宙|苹果播客|Spotify
视频版:BiliBIli|Youtube|视频号|抖音
【你将听到】
ChatGPT Agent首发体验与技术拆解
00:21 拆解AI Agent技术路径:什么是“聪明机器的大脑”?
02:12 ChatGPT Agent一手实测:浏览器操作如超人 VS 速度慢如蜗牛
04:26 视觉能力加持:Action体验有提升,但仍需等待
05:45 旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越
08:11 “全部推翻重来”:缺乏个性化机制、记不住反馈细节
10:07 ChatGPT Agent“打通搜索与执行”的本质:Deep Research + Operator的“拼贴工程”
通用型Agent技术路径对比
12:31 通用Agent技术类比:Operator最早专注Browser操作,如今叠加Sandbox后,在通用Agent里表现最强
14:52 四大技术方向有劣势对比:
15:40 浏览器为主:通用性强,但速度慢、体验差、成本高
17:21 开放虚拟机:本地运行快,但访问互联网等外部服务不易
17:37 大模型+虚拟机:GensPark模式,相对环节更封闭
18:46 Workflow+工具集成:Pokee模式,交付好但不是所有任务都能做
20:23 Manus模式:Browser-based,Sandbox强,全能但慢
22:28 Genspark模式:标化工作流,牺牲通用性换取速度与稳定性
23:41 Pokee模式:速度快成本低,但范围受限
26:52 B端客户还是C端客户,适用场景与底层技术逻辑完全不同
29:36 Agent将重塑互联网入口,传统门户流量将大幅下滑
32:03 MCP无人维护:2万个协议中,真正可用的不到200个
33:47 Agent时代的广告逻辑大变:反而更有利于创作者?
强化学习与AGI的五个层次
38:52 强化学习适用场景:目标明确、机制清晰但数据稀缺
41:50 新兴路径:强化学习预训练(RL Pretraining)
44:40 一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识
46:51 AGI五级路径中,“执行者”(L3) 与“创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力
50:37 强化学习预训练的致命弱点:给出的解决方案可能“人类都看不懂”
52:43 强化学习(RLHF) Vs 监督学习微调(SFT):效果×2,但成本×10
Meta收购ScaleAI背后的逻辑
54:08 Meta收购Scale:多模态数据仍然是瓶颈
56:46 多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一
57:59 AI的核心问题:短期算力,中期数据,长期人才
59:10 如何让Agent调用更好用?自研模型
01:03:33 平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限
强化学习的人才大本营
01:05:42 RL奠基人、2024年图灵奖得主Richard Sutton:想法极具前瞻性,且坚持原则
01:07:47 模型可塑性挑战:AI的“灾难性遗忘”亟待解决
01:09:56 奖励函数设计难:强化学习中如何设定“道德且有效”的多目标激励
01:11:47 RL核心研究圈:学术界与业界均高度集中
学术界:OpenAI早期团队,Peter Abbeel, Sergey Levine , Richard Sutton
业界:以David Silver为代表的DeepMind员工、以John Langford为代表的微软员工等
01:12:50 从AlphaGo开始,伦敦成为强化学习研究的重要中心
01:15:28 如何像投资人销售过于超前的想法:只说一个非共识
01:16:58 市场正在分化,技术路径选择是创业公司活下来的核心
【节目中提到的AI Agent】
OpenAI相关:
ChatGPT Agent
Operator
Deep Research
其他:
Manus
Genspark
Perplexity
Claude Agent
Fellou
Flowise
Zipper
UIPath
Replicate
【节目提到的相关术语】
MCP / Multi-Agent Capability Protocol协议(多智能体协作协议)
A2A(Agent-to-Agent Protocol)
SDK(软件开发工具包)
API(应用程序接口)
Vision Model
Browser-based Agent
Sandbox(沙盒环境)
Virtual Machine (VM)
Token Consumption(Token消耗)
Tool Calling:调用第三方工具或API完成任务
Workflow-based Agent
Reinforcement Learning / RL(强化学习)
RL Fine-tuning / RLFT(强化学习微调)
RL Pre-training(强化学习预训练)
Verification(验证机制)
Ground Truth(基准真值)
Hallucination(幻觉)
Human Feedback(人类反馈)
Supervised Fine-tuning / SFT (监督式微调)
Human Readability(可读性)
Catastrophic Forgetting(灾难性遗忘)
Benchmark Score(基准分数)
ICML(International Conference on Machine Learning):机器学习顶级学术会议
【相关节目】
E200|投资人视角深聊:AI Agent的核心壁垒与投资逻辑
E195|从工具到伙伴:七位AI Agent深度使用者的思考
E191|小而美的机会来了,聊聊这轮AI Agent进化新范式
【监制】
泓君
【后期】
AMEI
【Shownotes】
陈思扬
【运营】
王梓沁
【BGM】
Simple Pleasantries - Arthur Benson
Anticipating a New Day - Stationary Sign
【在这里找到我们】
公众号:硅谷101
收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓FM|荔枝FM|网易云音乐|QQ音乐
其他平台:YouTube|Bilibili 搜索「硅谷101播客」
联系我们:[email protected]
Special Guest: 朱哲清.
ChatGPT Agent的技术本质是“浏览器+沙盒”的混合架构,与Manus、Genspark形成技术路线差异。在底层架构层面,浏览器(Browser-based)代理虽堪称“万能”,但运行速度较慢;沙盒(Sandbox)代理高效,但无法联网操作、工具库受限;而工作流集成(Workflow API)速度快、结果精准。在训练方法层面,强化学习(RL)被视为AGI从“执行者”向“创新者”跨越的重要路径,但当前面临的验证泛化与训练不稳定难题,如同两道枷锁锁住了这扇进阶之门。
强化学习能否成为通用AI爆发的关键引擎?AGI实现技术跃迁的分水岭究竟在哪?在把Agent产品化和商业化的道路上,又如何平衡模型能力与用户体验?本期《硅谷101》,主播泓君对话Pokee.ai创始人朱哲清,多维度测评ChatGPT Agent使用体验,并深入拆解Agent的四大底层设计逻辑、探讨强化学习的训练路径,以及我们迎接“超级智能时刻”所面临的技术挑战。
【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
朱哲清,Pokee.ai创始人,前MetaAI应用强化学习团队负责人,斯坦福强化学习博士
【101 Weekly新节目预告】
硅谷101上线了一版更加轻量级的音视频节目「101Weekly」,每周由我们的三位主播复盘三个商业热点事件,每期10分钟左右,并请来行业专家来一手分析解读,希望这每周的30分钟,帮助大家轻松了解一周新闻大事件,点击收听。
音频版:Fireside|小宇宙|苹果播客|Spotify
视频版:BiliBIli|Youtube|视频号|抖音
【你将听到】
ChatGPT Agent首发体验与技术拆解
00:21 拆解AI Agent技术路径:什么是“聪明机器的大脑”?
02:12 ChatGPT Agent一手实测:浏览器操作如超人 VS 速度慢如蜗牛
04:26 视觉能力加持:Action体验有提升,但仍需等待
05:45 旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越
08:11 “全部推翻重来”:缺乏个性化机制、记不住反馈细节
10:07 ChatGPT Agent“打通搜索与执行”的本质:Deep Research + Operator的“拼贴工程”
通用型Agent技术路径对比
12:31 通用Agent技术类比:Operator最早专注Browser操作,如今叠加Sandbox后,在通用Agent里表现最强
14:52 四大技术方向有劣势对比:
15:40 浏览器为主:通用性强,但速度慢、体验差、成本高
17:21 开放虚拟机:本地运行快,但访问互联网等外部服务不易
17:37 大模型+虚拟机:GensPark模式,相对环节更封闭
18:46 Workflow+工具集成:Pokee模式,交付好但不是所有任务都能做
20:23 Manus模式:Browser-based,Sandbox强,全能但慢
22:28 Genspark模式:标化工作流,牺牲通用性换取速度与稳定性
23:41 Pokee模式:速度快成本低,但范围受限
26:52 B端客户还是C端客户,适用场景与底层技术逻辑完全不同
29:36 Agent将重塑互联网入口,传统门户流量将大幅下滑
32:03 MCP无人维护:2万个协议中,真正可用的不到200个
33:47 Agent时代的广告逻辑大变:反而更有利于创作者?
强化学习与AGI的五个层次
38:52 强化学习适用场景:目标明确、机制清晰但数据稀缺
41:50 新兴路径:强化学习预训练(RL Pretraining)
44:40 一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识
46:51 AGI五级路径中,“执行者”(L3) 与“创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力
50:37 强化学习预训练的致命弱点:给出的解决方案可能“人类都看不懂”
52:43 强化学习(RLHF) Vs 监督学习微调(SFT):效果×2,但成本×10
Meta收购ScaleAI背后的逻辑
54:08 Meta收购Scale:多模态数据仍然是瓶颈
56:46 多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一
57:59 AI的核心问题:短期算力,中期数据,长期人才
59:10 如何让Agent调用更好用?自研模型
01:03:33 平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限
强化学习的人才大本营
01:05:42 RL奠基人、2024年图灵奖得主Richard Sutton:想法极具前瞻性,且坚持原则
01:07:47 模型可塑性挑战:AI的“灾难性遗忘”亟待解决
01:09:56 奖励函数设计难:强化学习中如何设定“道德且有效”的多目标激励
01:11:47 RL核心研究圈:学术界与业界均高度集中
学术界:OpenAI早期团队,Peter Abbeel, Sergey Levine , Richard Sutton
业界:以David Silver为代表的DeepMind员工、以John Langford为代表的微软员工等
01:12:50 从AlphaGo开始,伦敦成为强化学习研究的重要中心
01:15:28 如何像投资人销售过于超前的想法:只说一个非共识
01:16:58 市场正在分化,技术路径选择是创业公司活下来的核心
【节目中提到的AI Agent】
OpenAI相关:
ChatGPT Agent
Operator
Deep Research
其他:
Manus
Genspark
Perplexity
Claude Agent
Fellou
Flowise
Zipper
UIPath
Replicate
【节目提到的相关术语】
MCP / Multi-Agent Capability Protocol协议(多智能体协作协议)
A2A(Agent-to-Agent Protocol)
SDK(软件开发工具包)
API(应用程序接口)
Vision Model
Browser-based Agent
Sandbox(沙盒环境)
Virtual Machine (VM)
Token Consumption(Token消耗)
Tool Calling:调用第三方工具或API完成任务
Workflow-based Agent
Reinforcement Learning / RL(强化学习)
RL Fine-tuning / RLFT(强化学习微调)
RL Pre-training(强化学习预训练)
Verification(验证机制)
Ground Truth(基准真值)
Hallucination(幻觉)
Human Feedback(人类反馈)
Supervised Fine-tuning / SFT (监督式微调)
Human Readability(可读性)
Catastrophic Forgetting(灾难性遗忘)
Benchmark Score(基准分数)
ICML(International Conference on Machine Learning):机器学习顶级学术会议
【相关节目】
E200|投资人视角深聊:AI Agent的核心壁垒与投资逻辑
E195|从工具到伙伴:七位AI Agent深度使用者的思考
E191|小而美的机会来了,聊聊这轮AI Agent进化新范式
【监制】
泓君
【后期】
AMEI
【Shownotes】
陈思扬
【运营】
王梓沁
【BGM】
Simple Pleasantries - Arthur Benson
Anticipating a New Day - Stationary Sign
【在这里找到我们】
公众号:硅谷101
收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓FM|荔枝FM|网易云音乐|QQ音乐
其他平台:YouTube|Bilibili 搜索「硅谷101播客」
联系我们:[email protected]
Special Guest: 朱哲清.
主播...
评价...
空空如也
小宇宙热门评论...

Yanan1116
1天前
加拿大
9
两年过去了 其实agent并无什么实质性跨越进展。目前还是需要读原始网页源码 而非像人一样直接通过视觉模态快速读取和操作网页浏览器 虽然在两年前就有gpt4v这样的工作 但其实目前看来 并无什么落地。这也是为啥agentic task效率奇慢 token cost奇高的原因。看来所谓的超级智能 还有很远的一段路要走。 (网页这么整齐的二维视觉信息都理解不了 更别提robotics physical intelligence了) 所谓的vla 更多的时候是一个概念。另外 恐怕不能直接武断的讲rl是通往超级智能的道路吧。
rl出现很久了 现如今 无非是rl配上了llm or vlm 相比于之前的cnn rnn 无非就是烹饪底料变了 但是烹饪技术甚至厨具都没啥变化。rl范式本身没有什么剧变。相比较于imitation learning对过程(token)负责 rl主要是对结果效果负责 前者负责短程优化 rl负责长程整体收益。本质都是监督学习: 不确定性 幻觉 学习低效不稳定 标注量大等等问题都还存在。离真正的agi based agent还很远。
陈乐群
1天前
美国
2
14:50 补充一下 Perplexity 的 Comet 浏览器也不止是能跟当前页面进行交互。我前两周正好车险快到期了,因为我知道我想要什么样的保额,所以就让 Comet 浏览器按照我想要的保额去各家保险的网站上问了个价格。最后 Comet 给我列出来五六家保险公司,各自稍微不同的保额具体是多少,半年的价格是多少,以及每家公司问价的 Quote Number。(当然之后我的邮箱也受到了各个保险公司的邮件hhh)说实话我确实是没想到这个事情是直接让 Comet 浏览器去做就能成功的,之前每半年续车险的时候都要花很多时间比价格。
猫猫挤着睡觉
1天前
上海
2
并没有因为语言影响听感,信息密度高,受教。
Dina_UYvM
20小时前
加拿大
1
Jane提的问题非常好,如果不告诉AI自己偏好和习惯,它怎么会正好把计划做到你心坎呢?我的理解这也是训练机器人的一个部分。说到记忆,我试过perplextity,Gemini, Grok,最后还是选择ChatGPT,而且心甘情愿付费使用。它偶尔确实会遗忘之前记忆,但是提一句马上就会反应过来。其它几家在这个功能上毫无可比性。

ummuhh
1天前
新疆
0
嘿嘿第一次这么早

RGSH
1天前
上海
0
有字幕版,有心了

melonlala
1天前
陕西
0
17:35 感觉嘉宾很了解通用agent的前沿诶,好好好

宇小宙ghk
23小时前
北京
0
这个逻辑难道不是更受制于平台的限制吗?说干掉你就干掉你,毫无通用性

酸冷硬辣都不吃
23小时前
湖北
0
主播声音好听😊

PinkCottonCa
15小时前
美国
0
赶上了!

绝对不是你的菜
1天前
浙江
0
哪里有字幕版?没找到