42章经 - Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent｜对谈 Sheet0 创始人王文锋 - EarsOnMe

42章经
Agent 开发的上半场: 环境、Tools 和 Context 如何决定 Agent｜对谈 Sheet0 创始人王文锋

时长：

52分钟

播放：

2.78万

发布：

4个月前

主播...

曲凯

简介...

活动预告🥳：4 月 26 日，我们会请到 sheet0.com 创始人文锋做一场线下活动，大家记得翻到 shownotes 末尾查看报名信息！
关于 Agent 这个话题，我自己有一些核心在思考的问题，相信这些也是很多人同样会有疑问的地方，这期播客中我们就这些问题展开了讨论，并基本得到了一些答案：
1）怎么定义 Agent，Agent 最重要的是什么
2）今天的 Agent 和两年前的 Agent 的区别是什么
3）如何简单快速理解 Function Call，Coding Agent，MCP，A2A，Computer Use，Browser Use 等概念
4）不同方式的区别是什么，有什么优劣之分吗
5）怎么看通用 Agent 和垂直 Agent 的区别，终局是什么
6）AI Coding 和 Agent 最终会是一件事吗，或者二者会有什么关联
7）Workflow 和 Agent 的区别和终局
8）RL 这件事在 Agent 里的重要程度是什么，一家公司（尤其是做 Agent 的创业公司）到底该如何使用 RL
9）大模型自身的 Agent 比如 OpenAI Operator 和其他应用产品的区别是什么，最终市场形态会怎样
10）如何快速判断一家 Agent 公司做得好不好
另外，在整段讨论中，本期嘉宾文锋基于长时间对 Agent 的研究和实操，还提出了很多理解和分析 Agent 的框架和关键要素，以及在接近结尾部分留下了让我非常有启发的一句话：AI Coding 是大模型的灵巧手。
【人类博物馆】
导游：曲凯，42章经创始人
33 号珍藏：王文锋，Agent builder，sheet0.com Founder & CEO，连续创业者，有近十年 AI、Data Infra 产品设计和 Coding 经验。sheet0.com 已开放 waiting list 申请，即将内测。
【时光机】
* 00:47 Agent 三要素：LLM、Context、Tool Use
* 1:17 这波 Agent 和过去两年的区别是什么？
* 2:30 怎么理解 Agent 中的 Context？
* 4:21 快速理解 Tool Use 的不同方案

* 4:40 代码调用支线：Function Call、MCP、A2A 之间的区别是什么？
* 6:35 模拟人类支线：浏览器是大模型能调用的最重要的工具
* 7:07 两条支线各有优缺点，也可以混合起来
* 10:27 Manus、Devin、Genspark 各用的什么方案？
* 12:25 Browser Use 的核心价值是给用户提供「安全感」
* 14:19 AI Coding 和 Agent 最终会殊途同归吗？
* 16:15 Agent 的终局会走向通用还是垂直？
* 17:17 脱离了 RL，Agent 就不成立了

* 19:15 所以 Agent 创业公司该如何使用 RL？
* 22:54 一个非共识理解：聊天框 + 场景推荐 UI 界面就是最好的交互形态
* 31:54 Sheet0 是一个怎样的 Agent 产品？

* 34:15 怎么把任务执行的准确率做到了 100%？
* 35:39 Workflow 会被 Agent 颠覆掉吗？
* 36:49 不同 Agent 的核心区别是什么？
* 39:05 AI Coding 是大模型的「灵巧手」
* 41:41 Agent 有两大「信任」命题
* 44:22 分享一个预测 Agent 未来发展的思考框架
* 47:33 如何快速判断一家 Agent 公司做得好不好？
【Reference】
文锋推荐大家都读一读强化学习之父 Richard Sutton 的《Reinforcement Learning：An Introduction》
【活动预告🥳】
4 月 26 日，我们会请到文锋做一场线下活动，感兴趣的朋友欢迎点击链接或扫描下面的二维码，一起来认识&交流！
【The gang that made this happen】
* 制作人：陈皮、Celia
* 剪辑：陈皮
* Bgm：Mondo Bongo - Joe Strummer & The Mescaleros

评价...

空空如也

小宇宙热门评论...

Circmuggle

4个月前北京

Agent被定义为一个“基于环境反馈进行决策和行动的程序”。它的基本组成包括三个核心要素：第一是模型（Model），它是Agent运行的基础逻辑系统；第二是环境反馈（Feedback），即外部信息的变化对其行为的影响；第三是工具使用（Tool Use），Agent通过工具与外界交互以完成目标。这三个维度共同构成Agent运行的核心机制。 Context是agent做出高质量决策的前提。它不仅包括用户输入、历史对话记录，还包括模型访问过的网页、读取的代码、点击记录等一切状态信息。用户在打开某个App的瞬间（如打开美团即暗示“点外卖”意图）就隐含了大量context，Agent需要能敏锐捕捉这些信号。真正高质量的数据不仅包括输入与结果，还包括“从输入到结果之间”的中间过程。例如点击流、交互记录、实时环境数据等。Google拥有完整的用户行为序列数据，这正是其在AI Native时代最具竞争力的优势。Context是Agent内部对“当前环境”的建模基础。Agent依赖上下文来理解用户意图、保持状态一致性并形成连续性的行动链。 Agent的底层逻辑源自强化学习，其三要素为：状态（State）、行动（Action）、激励信号（Reward）。其中：状态即Context，描述Agent所处的环境信息；行动即工具调用；激励信号则是Agent用于评估行为好坏的标准。要真正设计好Agent，必须构造出“一个可以反馈的环境”，让Agent的行为有明确收敛目标。创业公司设计Agent时，关键在于：（1）将产品本身设计成“环境”，让模型理解输入、输出与行为反馈；（2）明确界定“好行为”与“坏行为”，定义奖励机制；（3）允许用户参与Agent的行为澄清与反馈过程，提高可解释性与交互灵活度。Agent面临双重信任挑战： 1）开发者需信任大模型的泛化能力，否则容易人为“封闭”模型能力，降低Agent的智能利用率； 2）用户需信任Agent的行为过程与结果，这就要求系统设计中加入可解释性机制、逐步反馈系统。 Agent系统构建的两个核心变量：（1）Context的构建：工程实现上复杂度高，常需半年以上的积累；（2）LLM性能：未来以GPT-5为代表的大模型能力提升，以及推理成本（token消耗）的下降，将显著影响Agent可用性与普及速度。要构建可持续演进的Agent，必须明确什么样的行为是“好”的（应被鼓励），什么是“差”的（应被纠正）。这类激励机制不应仅依赖模型本身，而需产品系统提供明确的行为评估信号，从而引导Agent优化自身决策。

曲凯

4个月前北京

sheet0.com 已开放 waiting list 申请，即将内测，产品很有趣！另外下周六有一场嘉宾的线下活动，可在 shownotes 海报中扫码报名

Joes东

4个月前广东

这哥们的产品感觉更实用一些没有花里胡哨的东西也不担心被模型即产品替代

JASting

4个月前北京

00:55 agent是模型基于环境反馈使用tool的程序。

Sanguis

4个月前上海

这期讲的非常棒！曲老师的问题真的非常好，嘉宾回答的干货很足，尤其是文峰讲的怎么保证100%生成准确率的方法，真的醍醐灌顶！作为一个也想开发agent的初学者学到了很多

啊猴啊

4个月前北京

13:17 可视化是人机交互建立初始信任感的有效途径。

蔡文姬不听

4个月前北京

这期好棒

薄荷波子汽水

4个月前北京

听了几遍也没听清说的书名

Ragn

4个月前上海

24:46 完全不认可，没有准确度就没有使用场景。你可以极致自由，但只要Agent他的主定位是解决问题，那准确不然排在自由度之前。这又不是一个娱乐产品

DumpFox

4个月前北京

给锋哥打call

阿豪_5jmD

4个月前英国

文峰、文峰，我以为是梁文峰

孟欣_dahR

4个月前北京

32:14 非常实用的分享，放弃对模型的幻想，凭空想象出你要的实现，尽量用工具完成重复且确定的任务

哄哄_IOuG

4个月前上海

听下来很有启发，重点在于 context 和 llm 结合，当中通过工程手段来确保reward 清晰，其实又回到之前吴老师那期pretrain + decision 那期，两期结合起来听更有收获。好奇 RL 的policy 是怎么实现的，不过播客里面讲action space都是tool calling感觉也是 LLM 进行微调后实现，另外听播客提到tool 使用都是自己做的工具，所以在产品边界内也一定解决了泛化问题，难点还是在reward和长程规划能力这块。

JASting

4个月前北京

36:14 workflow和agent区别：前者人驱动，后者ai驱动，准召平衡。

sanbai_

4个月前陕西

如何评估环境设计是否合理这里很有启发。

JASting

4个月前北京

22:16 环境的核心是提供奖励信号的反馈机制，所以判断环境好不好，是要看是否有基于我行为的反馈。—-适用于人际关系和职场环境。

自牧生

4个月前上海

极致的自由度反而会让用户茫然不知所措（提高使用成本），用来做打发时间的应用还可以，如果是有明确目标的应用或 agent，牺牲一些自由度但是更加清晰明了才是正道

Joye_Mlny

4个月前浙江

讲的很清楚，反复听了两边

Novac42

4个月前北京

很棒的一期，设计好一个让Agent可以接收反馈的环境那部分非常有洞见。不过有点惊讶嘉宾不认可A2A，我觉得A2A和MCP相当互补，如果没有A2A，只用MCP做任务编排会非常繁琐，要写很多胶水代码把一个本来是用于取context的server包装成处理任务的server，对授权的处理也很不安全。A2A在这一层做了必要抽象，让MCP server开发者不必自己造轮子了

Credie

4个月前北京

请问报名周六活动，填完问卷后，大概什么时候可以收到反馈呀？好想去😬😬

Joye_Mlny

4个月前浙江

推荐的书叫什么呀？可以在哪里找到

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表