Album
时长:
140分钟
播放:
2.38万
发布:
3个月前
主播...
简介...
https://xiaoyuzhoufm.com
我们又来读论文啦!!!
今天我们要读的论文是最近几个星期内最值得品读的几篇技术报告,分别是:Kimi K2、ChatGPT Agent、Qwen3-Coder的技术报告,以及Manus的一篇技术博文。他们的相关性是,这几篇内容都和Agent有关系。
今天的嘉宾是俄亥俄州立大学(The Ohio State University)的在读博士郑博元,他的研究方向是Language Agent,他会带我们一起读上述技术报告和博文。
这是《商业访谈录》的“技术之美”系列,期待和你一起读论文,领略科技平权,感受技术之美——做你的赛博组会:)
00:02:00 给Agent下定义和分类
00:14:50 Kimi K2、ChatGPT Agent、Qwen3-Coder、Manus的技术路线对比
00:28:29 Agent Training 的关键环节:合成数据、强化学习、安全
00:30:57 第一篇技术报告:Kimi K2: Open Agentic Intelligence
github.com
00:43:50 第二篇技术报告和访谈:Introducing ChatGPT agent: bridging research and action
openai.com
红杉访谈OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet
www.sequoiacap.com
01:53:38 第三篇技术报告:Qwen3-Coder: Agentic Coding in the World
qwenlm.github.io
01:59:04 第四篇技术博文:AI代理的上下文工程:构建Manus的经验教训(作者:Yichao 'Peak' Ji)
manus.im
02:06:06 展望:也许会有一个新的范式
02:15:20 我感觉Agent是“我拓展的大脑”,我背后有一个“军团”(Family of Agents)
02:16:41 不同Bot的语言风格:DeepSeek嘴臭,元宝舔狗
智能体定义
Agent是一种能够与环境进行交互(interaction)的智能系统。
它具备两个基本能力:
感知能力(Perception)
能够观察环境的状态,包括获取外部信息、读取反馈信号、解析上下文等。
行动能力(Action)
能够在环境中执行动作,例如调用工具、生成输出、控制界面、修改变量等。
简言之,Agent = 感知 + 行动
在一个循环中不断执行“观察 → 决策 → 行动”的流程,以达成任务目标。
Agent 的定义与分类
1. Coding Agent(代码智能体)
代表产品:Cursor、Windsurf
特点:代码生成与编辑能力强,用户体验优秀
应用场景:代码补全、代码重构、多人协作编程
2. Search Agent(搜索型智能体)
特点:结合搜索引擎,自动完成信息检索和汇总
应用场景:市场调研、报告生成、竞争对手分析等
潜力:在企业级场景中有很强的应用价值
3. Tool-Use Agent(工具使用型智能体)
特点:能够调用多种外部工具完成复杂任务
应用重点:是目前 Agent 研究和落地的主要方向
举例:ReAct(推理 + 行动)类 Agent,通过 tool calling 执行任务
4. Computer Use Agent(电脑操作型智能体)
代表产品:OpenAI Operator、Claude 的 Computer Use
特点:模拟人类使用电脑,完成跨应用的复杂操作
应用场景:执行流程自动化、远程助理、办公代理
Agent 的技术路线对比
1. In-Context Learning(上下文学习)
特点:依赖强大的预训练模型,通过提示构造实现任务规划与执行
优势:无需微调,灵活性高
局限:泛化能力弱,rollout 长度有限,容易失控
2. End-to-End Training(端到端训练)
特点:将 Agent 的全部行为编码进模型权重
优势:推理稳定,可控性强
局限:训练成本高,环境构建复杂
Agent Training 的关键环节
1. Data Synthesis(数据合成)
方法:生成大量高质量的 trajectory(行动轨迹)
用途:训练 Agent 在任务中如何决策、调用工具、管理 memory(记忆)
2. Reinforcement Learning(强化学习)
条件:需要定义清晰的 task(任务)与 verifiable reward(可验证奖励)
挑战:任务难度与环境反馈设计直接影响 Agent 的行为质量
3. Safety(安全性)问题
风险:Agent 具备自主决策能力,容易误用工具、走偏轨迹
对策:加入 sandbox(沙盒)限制、行为约束机制、Human-in-the-loop(人类监控)
展望:也许会有一个新的范式
生成数据的核心会从 input-output 式的数据标注,转向构建 environment(环境)以及对应的 task-reward(任务-奖励)。比如 Scale AI 提出的 rubrics as reward(用评分标准作为奖励机制)
Agent 能不能实现自我提升(self-improve)?一方面,Agent 在和环境交互的过程中会不断获得新数据;那它能不能自己找到或构造 verifiable reward(可验证的奖励)?交互中积累的 experience(经验),能不能被更有效地利用起来?
评价...

空空如也

小宇宙热门评论...
张小珺
3个月前 北京
16
给大家整理了技术报告link: 第一篇技术报告:Kimi K2: Open Agentic Intelligence https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf 第二篇技术报告访谈:Introducing ChatGPT agent: bridging research and action https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/ 红杉访谈OpenAI:OpenAI Just Released ChatGPT Agent, Its Most Powerful Agent Yet https://www.sequoiacap.com/podcast/training-data-chatgpt-agent/ 第三篇技术报告:Qwen3-Coder: Agentic Coding in the World https://qwenlm.github.io/blog/qwen3-coder/ 第四篇技术博文:AI代理的上下文工程:构建Manus的经验教训(作者:Yichao 'Peak' Ji) https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
真的cosine
3个月前 河南
11
读论文更适合视频的形式,尤其是AI从业者表达上中英夹杂的问题
AI龙门阵
3个月前 贵州
7
1:01:39 这个解说论文的人不行,照着读,还结巴,还结结巴巴插很多英文单词,表达也不行,听着太难受了,但凡四个致命弱点少一个也好点,偏偏全占!比如:这个,这个,这个,这个…听得要断气啦
张小珺
3个月前 北京
7
含投屏的视频在这:【逐段讲解Kimi K2报告并对照ChatGPT Agent、Qwen3-Coder等:“系统工程的胜利”-哔哩哔哩】 https://b23.tv/oqsTICO。可以前往bilibili关注:张小珺商业访谈录
生而为猫奴
3个月前 广东
5
哇!许的愿实现了🤩
Gontus46
3个月前 北京
5
谢谢小珺和校友的分享,真的很清楚的分析了 Kimi K2 的这篇技术报告,一直对 K2 Agentic Intelligence 的训练方法很好奇,但自己啃这篇还是有些认知不够,嘉宾很多地方的拓展解释都很帮助了理解哈。读完也觉得 KIMI 研究团队的技术能力真的很强啊,现在每天都会用 K2,包括编程也慢慢从 cursor 转到 Claude Code + K2,整体感觉效果都还不错,有时候 K2 还会有一些很惊喜的回答,也能看出他们在 Alignment 下了很大功夫,也希望他们能继续坚持 AGI 的目标。最后嘉宾提到的 Agent 可以主动交互去补全模糊需求的展望真的很有启发,我们在做一个 AI Native 的垂直产品的时候也在想如何把用户真正的需求从脑子中“提取”出来,现在想到的也是类似这种方法的多轮交互,之后去尝试一下!
yan5xu
3个月前 湖北
5
听完kimi-k2这一部分,突然想到,Agentic Agent产品本身,不就是天然的、最高质量的数据引擎吗? 它生产的数据,正是模型最需要、也最难构造的: * 完整的思考过程(过程态,而非结论) * 真实用户驱动(无工程师bias) * 海量真实世界交互(Function Call/MCP) agent 生产的数据,如果能再次让 scaling law 生效🤔那就有意思了
HedgeSage
3个月前 浙江
2
软妹主播硬核播客!
Gary_Gu
3个月前 美国
2
给好师弟打call!
Teigen
2个月前 北京
2
个人感觉听感还是很ok的~感谢制作这么硬核的播客
以后_xEx0
3个月前 北京
1
请问有录视频吗
Jack_ejdD
2个月前 广东
0
大模型季度报不更新了吗??????????
老牛_I6sa
2个月前 加拿大
0
一直很喜欢这个访谈类节目,真心建议不要再有这种科技报告讲解了,嘉宾讲的也累,听众听的也累。
少装主
2个月前 北京
0
1:07:01 作为一个法律工作者,为了在明天的会上装B发几句言,对着视频看到Quality Evaluation and Filtering了
福阿毛
2个月前 吉林
0
对于小白来说听一遍理解太困难了,不知道这些理解是否对?以及如果想理解目前各家Agent技术路径的差异,该怎么了解更多? 在做Agent方面几家的逻辑: 1. K2的重点不在于模型结构、算法和方法论上的重大创新,主要强调数据质量及多元化、以及RL中让模型自己给出reward 2. QWen3-Coder的同样强调数据及RL中的Reward,但技术团队没有披露核心内容,不确定是否有重大创新? 3. ChatGPT Agent是将Operater和Deep Research的能力结合,技术路线并不确定 4. Manus和前几家端到端的路径不同,Manus不涉及模型训练,主要是context engineering,即改善prompt,在基座模型的基础上交付出agent能力
eloquentlang
1个月前 北京
0
40:13 long context和mulit 影响了脑子因为模型cant compress和 metaphysical
eloquentlang
1个月前 北京
0
47:03 强调一定要把data变得diverse
eloquentlang
1个月前 北京
0
47:47 主要要求数据的diverse
eloquentlang
1个月前 北京
0
1:04:40 跟真实环境交互非常贵 比如说deep research会被Google api收费 比如浏览网页被封IP…
eloquentlang
1个月前 北京
0
要agent自己去找reward signal
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧