Album
时长:
79分钟
播放:
4.75万
发布:
2天前
主播...
简介...
https://xiaoyuzhoufm.com
美国时间7月17日,OpenAI终于迎来了它的“Agent时刻”——通用型ChatGPT Agent正式发布。它整合了深度研究工具Deep Research与执行工具Operator,可一站式完成复杂任务,但仍存在速度慢、个性化不足等短板。
ChatGPT Agent的技术本质是“浏览器+沙盒”的混合架构,与Manus、Genspark形成技术路线差异。在底层架构层面,浏览器(Browser-based)代理虽堪称“万能”,但运行速度较慢;沙盒(Sandbox)代理高效,但无法联网操作、工具库受限;而工作流集成(Workflow API)速度快、结果精准。在训练方法层面,强化学习(RL)被视为AGI从“执行者”向“创新者”跨越的重要路径,但当前面临的验证泛化与训练不稳定难题,如同两道枷锁锁住了这扇进阶之门。
强化学习能否成为通用AI爆发的关键引擎?AGI实现技术跃迁的分水岭究竟在哪?在把Agent产品化和商业化的道路上,又如何平衡模型能力与用户体验?本期《硅谷101》,主播泓君对话Pokee.ai创始人朱哲清,多维度测评ChatGPT Agent使用体验,并深入拆解Agent的四大底层设计逻辑、探讨强化学习的训练路径,以及我们迎接“超级智能时刻”所面临的技术挑战。
【主播】
泓君Jane,硅谷101创始人,播客主理人
【嘉宾】
朱哲清,Pokee.ai创始人,前MetaAI应用强化学习团队负责人,斯坦福强化学习博士(X:@ZheqingZhu)
【101 Weekly新节目预告】
硅谷101上线了一版更加轻量级的音视频节目「101Weekly」,每周由我们的三位主播复盘三个商业热点事件,每期10分钟左右,并请来行业专家来一手分析解读,希望这每周的30分钟,帮助大家轻松了解一周新闻大事件,点击收听。
音频版:Fireside|小宇宙|苹果播客|Spotify
视频版:BiliBIli|Youtube|视频号|抖音
【你将听到】
ChatGPT Agent首发体验与技术拆解
00:21 拆解AI Agent技术路径:什么是“聪明机器的大脑”?
02:12 ChatGPT Agent一手实测:浏览器操作如超人 VS 速度慢如蜗牛
04:26 视觉能力加持:Action体验有提升,但仍需等待
05:45 旅行规划场景:支付环节仍需人类介入,信任门槛尚未跨越
08:11 “全部推翻重来”:缺乏个性化机制、记不住反馈细节
10:07 ChatGPT Agent“打通搜索与执行”的本质:Deep Research + Operator的“拼贴工程”
通用型Agent技术路径对比
12:31 通用Agent技术类比:Operator最早专注Browser操作,如今叠加Sandbox后,在通用Agent里表现最强
14:52 四大技术方向优劣势对比:
15:40 浏览器为主:通用性强,但速度慢、体验差、成本高
17:21 开放虚拟机:本地运行快,但访问互联网等外部服务不易
17:37 大模型+虚拟机:GensPark模式,相对环节更封闭
18:46 Workflow+工具集成:Pokee模式,交付好但不是所有任务都能做
20:23 Manus模式:Browser-based,Sandbox强,全能但慢
22:28 Genspark模式:标化工作流,牺牲通用性换取速度与稳定性
23:41 Pokee模式:速度快成本低,但范围受限
26:52 B端客户还是C端客户,适用场景与底层技术逻辑完全不同
29:36 Agent将重塑互联网入口,传统门户流量将大幅下滑
32:03 MCP无人维护:2万个协议中,真正可用的不到200个
33:47 Agent时代的广告逻辑大变:反而更有利于创作者?
强化学习与AGI的五个层次
38:52 强化学习适用场景:目标明确、机制清晰但数据稀缺
41:50 新兴路径:强化学习预训练(RL Pretraining)
44:40 一个非共识:验证(Verification)方向的泛化性,可能产出人类所不拥有的知识
46:51 AGI五级路径中,“执行者”(L3) 与“创新者”(L4) 间存在巨大技术鸿沟,核心在于验证能力
50:37 强化学习预训练的致命弱点:给出的解决方案可能“人类都看不懂”
52:43 强化学习(RLHF) Vs 监督学习微调(SFT):效果×2,但成本×10
Meta收购ScaleAI背后的逻辑
54:08 Meta收购Scale:多模态数据仍然是瓶颈
56:46 多模态数据的最大挑战:数据复杂 + 维度多 → 主观标准难统一
57:59 AI的核心问题:短期算力,中期数据,长期人才
59:10 如何让Agent调用更好用?自研模型
01:03:33 平衡模型能力与用户体验:模型能力决定下限,产品细节决定上限
强化学习的人才大本营
01:05:42 RL奠基人、2024年图灵奖得主Richard Sutton:想法极具前瞻性,且坚持原则
01:07:47 模型可塑性挑战:AI的“灾难性遗忘”亟待解决
01:09:56 奖励函数设计难:强化学习中如何设定“道德且有效”的多目标激励
01:11:47 RL核心研究圈:学术界与业界均高度集中
学术界:OpenAI早期团队,Peter Abbeel, Sergey Levine , Richard Sutton
业界:以David Silver为代表的DeepMind员工、以John Langford为代表的微软员工等
01:12:50 从AlphaGo开始,伦敦成为强化学习研究的重要中心
01:15:28 如何像投资人销售过于超前的想法:只说一个非共识
01:16:58 市场正在分化,技术路径选择是创业公司活下来的核心
【节目中提到的AI Agent】
OpenAI相关:
ChatGPT Agent|Operator|Deep Research
其他:
Manus|Genspark|Perplexity|Claude Agent|Fellou|Flowise|Zapier|UIPath|Replicate
【节目提到的相关术语】
MCP / Model Context Protocol(模型上下文协议)
A2A(Agent-to-Agent Protocol)
SDK(软件开发工具包)
API(应用程序接口)
Vision Model
Browser-based Agent
Sandbox(沙盒环境)
Virtual Machine (VM)
Token Consumption(Token消耗)
Tool Calling:调用第三方工具或API完成任务
Workflow-based Agent
Reinforcement Learning / RL(强化学习)
RL Fine-tuning / RLFT(强化学习微调)
RL Pre-training(强化学习预训练)
Verification(验证机制)
Ground Truth(基准真值)
Hallucination(幻觉)
Human Feedback(人类反馈)
Supervised Fine-tuning / SFT (监督式微调)
Human Readability(可读性)
Catastrophic Forgetting(灾难性遗忘)
Benchmark Score(基准分数)
ICML(International Conference on Machine Learning):机器学习顶级学术会议
【相关节目】
E200|投资人视角深聊:AI Agent的核心壁垒与投资逻辑
E195|从工具到伙伴:七位AI Agent深度使用者的思考
E191|小而美的机会来了,聊聊这轮AI Agent进化新范式
【监制】
泓君
【后期】
AMEI
【Shownotes】
陈思扬
【运营】
王梓沁
【BGM】
Simple Pleasantries - Arthur Benson
Anticipating a New Day - Stationary Sign
【在这里找到我们】
公众号:硅谷101
收听渠道:Apple Podcast|Spotify|小宇宙|喜马拉雅|蜻蜓FM|荔枝FM|网易云音乐|QQ音乐
其他平台:YouTube|Bilibili 搜索「硅谷101播客」
联系我们:[email protected]
Special Guest: 朱哲清.
评价...

空空如也

小宇宙热门评论...
Yanan1116
3个月前 加拿大
38
两年过去了 其实agent并无什么实质性跨越进展。目前还是需要读原始网页源码 而非像人一样直接通过视觉模态快速读取和操作网页浏览器 虽然在两年前就有gpt4v这样的工作 但其实目前看来 并无什么落地。这也是为啥agentic task效率奇慢 token cost奇高的原因。看来所谓的超级智能 还有很远的一段路要走。 (网页这么整齐的二维视觉信息都理解不了 更别提robotics physical intelligence了) 所谓的vla 更多的时候是一个概念。另外 恐怕不能直接武断的讲rl是通往超级智能的道路吧。 rl出现很久了 现如今 无非是rl配上了llm or vlm 相比于之前的cnn rnn 无非就是烹饪底料变了 但是烹饪技术甚至厨具都没啥变化。rl范式本身没有什么剧变。相比较于imitation learning对过程(token)负责 rl主要是对结果效果负责 前者负责短程优化 rl负责长程整体收益。本质都是监督学习: 不确定性 幻觉 学习低效不稳定 标注量大等等问题都还存在。离真正的agi based agent还很远。
哄哄_q4uo
3个月前 广东
26
典型理工男思维 agent有用但没那么多用处的 刷购物网站 订旅行攻略本身就是一种乐趣 就跟我们此刻在听播客一样 是一种乐趣 很多场景的想象都脱离了人性 就好像开发一个ai agent帮你刷抖音刷小红书 一天下来告诉你刷了什么一样
猫猫挤着睡觉
3个月前 上海
22
并没有因为语言影响听感,信息密度高,受教。
blmlee
3个月前 广东
14
实在是非常好奇硅谷101是怎么把这些嘉宾请来的?华语的播客很少有期期请来业内高质量嘉宾的,是要付费请这些嘉宾吗?还是内容做得好这些嘉宾都是你们吸引过来的?我太好奇了
陈乐群
3个月前 美国
9
14:50 补充一下 Perplexity 的 Comet 浏览器也不止是能跟当前页面进行交互。我前两周正好车险快到期了,因为我知道我想要什么样的保额,所以就让 Comet 浏览器按照我想要的保额去各家保险的网站上问了个价格。最后 Comet 给我列出来五六家保险公司,各自稍微不同的保额具体是多少,半年的价格是多少,以及每家公司问价的 Quote Number。(当然之后我的邮箱也受到了各个保险公司的邮件hhh)说实话我确实是没想到这个事情是直接让 Comet 浏览器去做就能成功的,之前每半年续车险的时候都要花很多时间比价格。
Dina_UYvM
3个月前 加拿大
8
Jane提的问题非常好,如果不告诉AI自己偏好和习惯,它怎么会正好把计划做到你心坎呢?我的理解这也是训练机器人的一个部分。说到记忆,我试过perplextity,Gemini, Grok,最后还是选择ChatGPT,而且心甘情愿付费使用。它偶尔确实会遗忘之前记忆,但是提一句马上就会反应过来。其它几家在这个功能上毫无可比性。
yan5xu
3个月前 湖北
8
16:50 这里说的有些问题,现在 browser-use 不是看完整的原始 html,而是把可视内容,可交互元素,有些会加上截图,这些信息给 agent 决策。原始 html 太大了
jiayingwong
3个月前 广东
5
信息密度太高,听了一遍再看文字稿再听
张萌MengZhang
2个月前 美国
5
07:22 电商的链路很短? 感觉嘉宾对整个电商的理解很片面
绝对不是你的菜
3个月前 浙江
3
哪里有字幕版?没找到
jiayingwong
3个月前 广东
3
有没有 b 站的链接?没找到
晓风暮笛
3个月前 广东
3
信息密度太高了,求公众号快上文字稿,细细品读下
HD127984z
2个月前 新加坡
3
这中英夹杂也不是技术专业名词啊,operater这种东西需要英语吗...既然来坐客播课,好歹也要对听众负点责吧,不能控制一下自己的语言吗
乌拉尔山重型机械厂副厂长
2个月前 浙江
2
18:04 四种类型agent的技术特点
童童童Tong
2个月前 重庆
2
听得我好难受啊,是非要说两个中文就夹杂一个英文嘛?我不相信这些专有名词都没有中文翻译的,甚至像professional、consumer这些词不能直接说中文吗,理解嘉宾是在海外工作,但是这毕竟是一档中文播客,是不是应该照顾一下本土听众的感受,还是说听不懂这些英文的就不配听节目,你们是什么主理人播客吗。别的播客就算是邀请李开复来讲AI感觉也很平易近人清晰易懂
慕鸿
2个月前 黑龙江
1
厉害了
张萌MengZhang
2个月前 美国
1
07:36 电商决策只有三到四步? 具体客户的购物心智和要买的东西可以决定这个过程可以很长,也可以很短
Iris_0502
2个月前 吉林
1
喜欢要么全英要么全中,这种听着很难受
娟涓卷
2个月前 重庆
1
这个嘉宾的表达太糟了。很多时候中英夹杂的确是因为很难一下找到精确对应的汉语。这位嘉宾不是,中英夹杂已经影响了信息质量。
司徒霸刚
3个月前 新西兰
1
1:13:45 请问有同学看到RL+formal verification 的论文吗?如果看到请回复我一下呀,不胜感激
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧