上下文内容是越多越好么?AI产品从演示DEMO到生产环境之间,又有着怎样的鸿沟呢?今天,我们来回顾一下Chroma CEO杰夫·哈伯(Jeff Huber)在《Latent Space》播客节目的访谈,看看Chroma是如何试图将AI开发的“炼金术”,转变为一门真正的“工程学”的。这不仅是一个关于技术的故事,更是一个在喧嚣的AI浪潮中,如何保持专注、坚持信念和追求极致“技艺”(Craft)的故事。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
最近,国产算力芯片领域有个词火了,那就是UE8M0 FP8。火爆的原因,主要是因为DeepSeek在8月21日发布的V3.1版本模型,其中最大的亮点就是,模型训练采用了UE8M0 FP8 Scale的参数精度,并且提到,UE8M0 FP8是“针对即将发布的下一代国产芯片设计”的。正是这句话,引起了资本市场的热烈反应。A股和港股里的“国产芯片、FP8概念股”短线大涨。那么,这个UE8M0 FP8的背后,到底隐藏着怎样的技术逻辑?它又能否成为国产芯片突围的关键呢?今天,咱们就来聊聊关于这个概念的来龙去脉、技术细节以及对行业的影响。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
强化学习之父、图灵奖得主,Sutton 在 RLC 2025 的讲台上,再次抛出了一套宏大的构想,直指 AI 的终极问题,超级智能将如何从经验中涌现?他将这个架构命名为橡树OaK,全称为Options and Knowledge Architecture。这不仅仅是一个技术框架的发布,更像是一篇檄文。它深刻地批评了当前 AI 领域对大语言模型的路径依赖,并且试图将研究的焦点,重新拉回到那个最经典也最核心的命题上,我们究竟该如何创造一个能够像我们一样,通过与世界互动、在生命周期中不断学习和成长的智能体呢? 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
8月16日,Anthropic发布了最新一期官方油管视频,三位来自可解释性团队的研究员进行了一场深入的探讨,试图揭开大模型思考方式的神秘面纱。今天,大飞就来给大家总结一下这场访谈里的干货,一起看看被我们一直称为黑盒的大模型,内部到底藏着怎样的秘密。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
8月8日,吴恩达接受了The Moonshot播客的专访,围绕吴恩达的学术生涯起点、Google Brain项目的创立与发展、以及AI的未来趋势,回顾了Google Brain赖以成功的两大颠覆性基石,也就是规模至上与单一学习算法,这两个假说的提出与论证,以及在当时学术界主流范式下,这些观点所遭遇的巨大阻力与争议。此外,吴恩达还谈到了Google Brain团队的关键合作、硬件选择的曲折之路、早期应用场景的开拓、以及他对AI未来、教育和工作的看法,今天我们就来回顾一下这场访谈的核心内容,了解一下那段对吴恩达来说,充满挑战与突破的岁月。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
* 内容概览:基于 Decoder 节目的最新访谈,作者提炼 Thomas Dohmke 对 AI 编程现状与走向的判断:GitHub 并入微软 Core AI 的战略位移,AI 写“90% 代码”的真实语境,Agent 带来的质量与控制之战,工具链竞合(Copilot、Cursor、多模型),Anthropic 在“工具使用力”上的优势,以及对 AGI/ASI 的务实界定,最终落到团队可落地的工程治理方法。 ${DIA-SOURCE} 开篇引入 “AI 编程”的航标不在炫技 Demo,而在“如何把更大量的代码变成可上线、可审计、可回滚的生产能力”。作者借 Dohmke 的访谈,把争议性的口号拉回工程本质:效率的另一面是标准与控制,人与 Agent 的分工会重塑工具与组织。 ${DIA-SOURCE} 详细内容 一、战略巨变:GitHub 并入微软 Core AI 的真实指向 0:12-0:44] * 核心观点:GitHub 不再只是“开发者社区”,而将成为微软 AI 工具链的底座,预示 AI 编程的集成化与企业化加速。 ${DIA-SOURCE} * 深度阐述:组织级并入意味着身份/合规/算力/计费与 IDE/Agent 的闭环更快打通;生态角色从“外围平台”转向“生产资料中枢”。 ${DIA-SOURCE} 二、能力演进:从“小项目即成”到“全栈生成” [1:15-2:20] * 核心观点:对简单项目已“一句指令起步”,复杂系统仍需“系统理解”;GitHub Spark 在 9 个月内从前端 Demo 跨至“含后端与数据库”的全栈生成。 ${DIA-SOURCE} * 深度阐述:能力突进主要发生在工程脚手架层,难点从“写代码”转为“拼装正确的系统”。 ${DIA-SOURCE} 三、“开发者的奥德赛”:复杂软件的真正难题 [2:24-4:11] * 核心观点:历史累积与耦合是大多数软件的痛点;AI 的任务正从“写每一行”迁移到“在规范与系统之间切换”。 ${DIA-SOURCE} * 深度阐述:抽象层持续上移、依赖激增,带来语义地图的维护成本;需要新协作与新抽象“拉平曲线”。 ${DIA-SOURCE} 四、“90% 由 AI 完成”的真实语境 4:19-5:05] * 核心观点:“90%”并非噱头,而是类比今天软件 90% 早由开源贡献;AI 将像开源一样放大效率,让人力集中在“最后 10% 的差异化”。 ${DIA-SOURCE} * 深度阐述:度量应从“行数”转向“用户价值/缺陷密度/可维护性”。 ${DIA-SOURCE} 五、质量与控制:从“写每一行”到“规范驱动” [6:01-7:41] * 核心观点:人类语言的非确定性要求“自然语言→代码”的多层验证;关键不是产量,而是可接受进入生产的比例与治理方式。 ${DIA-SOURCE} * 深度阐述:多数开发者愿用 AI 但存疑准确性,故需要把安全扫描、测试覆盖、风格规范与代码评审固化为流水线“闸门”。 ${DIA-SOURCE} 六、Agent 洪流:更快与可控的平衡 7:41-9:09] * 核心观点:Agent 并行生成会“淹没”人类,问题从“能否生成”转向“更快与否、如何验收与控权”。 ${DIA-SOURCE} * 深度阐述:为 Agent 设“准入门槛”(覆盖率、安全级别、回滚预案)与角色分工(人类定标准与最终裁决)。 ${DIA-SOURCE} 七、角色分化:提示工程与“继续写代码”的两类开发者 [9:12-10:28] * 核心观点:一类以提示与系统验证为主,另一类把重复工作交给 Agent,保留手写编码的创造性与乐趣。 ${DIA-SOURCE} * 深度阐述:将 AI 视作“新编译层”,把人类语言编译成代码,再由传统编译器落到机器指令。 ${DIA-SOURCE} 八、自然语言编程的边界与可行域 [10:49-11:25] * 核心观点:受限域内(如图表脚本)已实用化且将扩张;专业复杂系统仍需“工程保险杠”。 ${DIA-SOURCE} * 深度阐述:从小可控的域启动,逐步外延复杂度,叠加验证。 ${DIA-SOURCE} 九、竞合格局:Copilot、Cursor 与“选择权” 12:00-16:14] * 核心观点:不会出现“唯一胜者”,多模型与 AI 原生工作流并存;给予开发者模型选择权更符合长期最优。 ${DIA-SOURCE} * 深度阐述:Cursor 把“AI 原生 IDE”与多模型做成体验优势;Copilot 补课多模态与 MCP 集成。最佳模型随时间摇摆,平台需容纳切换与组合。 ${DIA-SOURCE} 十、模型评价的新维度:Anthropic 与“工具使用力” 16:54-17:41] * 核心观点:优劣不仅看“会写”,更看“会用工具”。Agent 若连 npm 依赖都装不下,流水线就会崩。 ${DIA-SOURCE} * 深度阐述:把“工具执行稳定性/环境操控力”纳入评估与基准测试集,重要性不亚于离线准确度。 ${DIA-SOURCE} 十一、生态与体量:微软×OpenAI×GitHub 的三角稳定性 17:44-18:55] * 核心观点:三方关系的健康互利是赛道增长的地基;Copilot 开启用户 2000 万、财富 100 强 90 家使用,AI 编程工具正成行业标配。 ${DIA-SOURCE} * 深度阐述:从 GPT-3/Codex 到 Copilot 的诞生,模型×云×生态三方叠加催生市场与竞争。 ${DIA-SOURCE} 十二、AGI/ASI 的“判门槛”:自我提升之时 19:01-19:47] * 核心观点:与其争定义,不如盯“自我迭代”的门槛:无需人类干预的自我升级,或从“被逗笑”进化到“会讲笑话”。 ${DIA-SOURCE} * 深度阐述:把“可持续自我提升”作为团队设计 Agent 体系的长期目标,而非短期 KPI。 ${DIA-SOURCE} 落地方法(面向团队的可执行清单) * 受限域先行:优先在数据报表、接口胶水层、内部工具等低风险域试点自然语言编程,设退出与回滚预案。 * 多模型/可插拔:在 IDE/CI 中提供模型切换/回退通道,允许自带模型,降低供应商锁定风险。 * 规范即代码:把安全扫描、依赖许可、风格规范、单测/属性测试、基准对拍做成 PR 必经关,才能“可接受进生产”。 * Agent 准入与度量:设覆盖率/安全级别阈值,跟踪“Agent 代码占比、审查用时、缺陷密度、回滚率、SLA 违约”等指标,以数据驱动取舍。 * 工具使用力测试:将“依赖安装、容器构建、迁移执行、灰度发布”纳入 Agent 基准测试,定期回归,重压工具链执行稳定性。 * 人类在环:高风险变更双人批准/红队演练;把“人类控制权”前置到流程设计。 * 运行时可观测:为 Agent 产出植入日志、指标、分布式追踪探针,把“未知风险”转为“可见与可控”。 * 知识回灌:沉淀失败个案/修复手册到上下文工程资产库,持续提升下一轮生成质量。 ${DIA-SOURCE} 结语 当所有团队都能“写得更多”时,分胜负的是“写得可控、交付可持续”。把 AI 视作“工程生产线的加速器”,用治理与观测把速度固化为稳态产能,才是“开发者的奥德赛”真正的通关路径。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
* 详细内容:一项由 MIT Media Lab 主持的真实神经实验显示,使用 ChatGPT 辅助写作时,大脑多个关键区域活动平均下降 47%;两位受访专家——计算神经科学先驱 Terry Sejnowski 与临床精神科医生 Daniel Amen——从“认知卸载”与“能力训练”两条线阐释风险与边界,作者在此基础上归纳出“正确用 AI 的五个方法”与“三个可操作的脑力训练法则”,并给出适用人群的边界与行动建议。 开篇引入 47% 是一个足以令人倒吸一口气的数字。但更值得在意的不是“是否变笨”的耸动表达,而是我们在把写作、表达、回忆这些原本“需要大脑做功”的流程外包给模型之后,究竟牺牲了什么。作者没有停留在“效率赞歌”或“恐慌叙事”,而是用实验、临床与方法论三条线索,逼近一个更本质的问题:当我们让 AI 代笔、代想、代说,我们从“创作的主角”何时悄悄滑向了“观看的观众”?又该如何把 AI 从“替身”重新矫正为“助教”,一边享受效率,一边稳住大脑的可塑性与独立性。 一、研究怎么做:47% 的由来与它真正说明了什么 [0:00-2:00] 核心观点 * MIT 将受试者分为“纯脑力写作/搜索辅助/大型模型辅助”三组,通过脑电设备追踪神经连接、回忆能力与“作品归属感”,结果显示 AI 介入越深,大脑参与度越低,记忆回忆越差。 深度阐述 作者交代实验关键变量:对象为 54 名学生;任务均为写作;三组分别为“完全靠大脑”“使用搜索引擎”“使用像 ChatGPT 这样的大模型”;过程全程佩戴脑电设备,观测指标不仅包含总体活跃度,还包括“神经连接度”“记忆回忆能力”与“对作品的拥有感”。用作者的话说,“靠大脑写作的组表现最好,其次搜索,最差是大模型”,指向一个直观却常被忽视的梯度:工具越“智能替代”,大脑参与就越“旁观”。这并不是在宣称“人变笨了”,而是在提醒“参与度”下降的后果:当写作的思路生成、词句组织被“外包”,你依赖的不是你的记忆网络,而是一种对外部输出的即刻依赖,随之而来的就是“几分钟后连自己刚写了什么都记不太清”。这与“效率提升”的表象并不矛盾:速度可以更快,但内部表征的构建更薄。 “一组完全靠大脑写作、一组用搜索引擎、一组用像ChatGPT这样大模型……靠大脑写作的组表现最好……最差的是用大模型的组。” “在几分钟后……相较自己写作的人群,回忆的准确率低了整整30%以上。” 视觉信息描述:片中为口述与梳理,没有展示具体脑电图或论文图表,仅以通俗语言解释实验设定与指标含义。 复杂概念通俗化:可以把“外包思考”理解为“让导航代替你走路认路”,你确实更快抵达,但你对路线的空间表征几乎没有建立,下一次你就更依赖导航。 个人感受 作者的讲述克制而明确:不是“AI 让你变傻”,而是当你把“思考-表达-回忆”的链条整体交出,大脑就学会少做一点——久而久之,这个“少”会固定下来。 延伸思考 学界争论的焦点并非“活跃度下降=退化”,而是“下降发生在哪些脑区、是否与任务性质/策略切换有关”。本片偏重“参与度—记忆”的可操作视角:先不争论定义,先把能管住的行为管起来。 精华收获 * 用 AI 的同时,尽可能保留“自己生成中间思路”的环节;不要一次性交出“想-写-说”的整条链路。 二、从“主角”到“观众”:认知的假动作与回忆断裂 [2:00-4:30] 核心观点 * 两位专家一致指出:当 AI 代笔成常态,人容易从“生成者”滑向“观看者”,这即刻带来专注与回忆的下降,长期则弱化前额叶等关键区域的参与。 深度阐述 Terry Sejnowski 的关键描述是“外包”:我们以为效率提升,实则把“想清楚/说明白”的工作交给了模型。作者复述他的尖锐表述:当你习惯让 AI 代笔,你就在从创作的“主角”变成“观众”,看着字自己长出来,却不再经历“从想法到语言”的艰难转译。Daniel Amen 从临床扫描经验切入,指出当人“照搬外部内容”(无论来源是 AI 还是别人的答案),大脑影像会变得暗淡,尤其前额叶的反应不足——而前额叶正与判断、组织、工作记忆密切相关。“写作是内部复述”,它要求你选词、排序、校对,自我监控才驱动记忆的编码;当 AI 接管,链路被切断,你对刚刚“完成”的东西也缺乏所有权感与回忆线索。 “当我们习惯让AI代笔的时候,就从创作的‘主角’变成了‘观众’。” “当一个人只是照搬外部内容……大脑里的活动图像会变得暗淡,尤其是前额叶,几乎没什么反应。” 视觉信息描述:口述为主,无具体脑区热图呈现;叙事强调“前额叶—判断与语言组织”的功能纽带。 通俗类比:“认知的假动作”就像健身时只做姿势不发力,你看起来在‘练’,但肌肉并没有承受负荷。 个人感受 作者在此段的情绪是提醒式而非恐吓式:不是反对效率,而是反对“无感外包”。真正值得怕的不是 AI,而是把主动性交出去后的“无感退场”。 延伸思考 这也解释了为什么“AI 写得更好”反而会诱发“自我退让”:越能即刻得到体面产物,人越容易跳过艰难但必要的中间层。 精华收获 * 判断自己是否落入“认知假动作”的一个信号:几分钟后,能否不用看屏幕复述刚写过的三条关键点。 三、谁更容易受影响:儿童、内容创作者与情感依赖者 [4:38-6:48] 核心观点 * 三类人群风险更高:发育中的儿童(可塑性窗口内的“外包”会错失能力搭建)、高频创作与表达者(长期把表达交给模型)、将 AI 作为情绪与决策“替身”的使用者。 深度阐述 Amen 把儿童的大脑比作“正在增肌的肌肉”,如果在语言组织与理解训练的关键期长期依赖外力,内部网络就练不出来——长期表现为“越少表达越难表达、越少记忆越难记忆”。这与教育中的“可得性偏差”相互强化:一句提示词就能出答案,恰恰跳过了“读题—转述—表征—作答”的链条。Sejnowski 关注到创作型与表达型职业(写作/视频/演讲/PPT),当“给一句指令→照搬输出”成为常态,“主动—被动”的角色迁移让独立思考能力在时间中变薄。第三类是情感依赖型使用:把 AI 当最懂自己的朋友与决策替身,短期获得体面与安慰,长期减少了真实互动中的“理解他人、解释情绪、管理冲突”的社会脑训练。 “你越少自己去表达,就越难以学会表达;你越少去记忆,就越难以记得住。” 个人感受 作者的担忧聚焦在“长期塑形效应”:如果从小把作业与表达交给 AI,成年后要补的不是知识,而是没搭起来的“内部路径”。 延伸思考 这也提示学校与家庭的边界设定:小龄阶段更强调“过程参与”,而非“产出体面”;评价指标从“答案正确”转为“思路展示”。 精华收获 * 自检:最近一周,是否出现“第一反应是打开模型,而不是先写 5 分钟草稿”的习惯迁移?若是,说明参与度正在下滑。 四、与 AI 共舞的五个正确姿势:把替代改成放大 [6:56-9:56] 核心观点 * AI 应当放大你的思考,而不应替代你的思考。五法则:先想后问;AI 给建议不下结论;强制反对视角;慢用结论多问为什么;不拿 AI 逃避难题。 深度阐述 1. 先想后问:自己先出提纲/要点,再让 AI 润色与拓展。这会保留“内部复述—编码”的关键环节。2) 建议而非结论:让 AI 作为“建议生成器”,而不是“定稿器”,把“最后一句话权”留在自己手里。3) 反对视角:刻意提示 AI “指出此观点的错误/作为对手如何反驳”,把“无摩擦输出”变成“有对抗思考”。4) 慢用结论:看完答案,强制自查三问——我同意吗?该补什么?能否换更合适的表达?5) 不逃避难题:演讲大纲、复杂情绪、艰难解释这些“最痛又最练”的环节,尽量自己先走一遍再用 AI 校订。五条合起来,就是把 AI 由“代工”改成“负重器材”。 “AI可以给建议,但是别让它直接写结论……你得先有个想法。” “可以故意让AI跟你唱一些反调……‘请告诉我这个观点可能错在哪里’。” “不要急着复制粘贴,而是问自己一句:这个地方我同意吗?” 方法论操作指南(可复用 SOP) * 开场 5 分钟:手写要点(不少于 5 条); * 模型第一轮:仅限“补全+提问清单”; * 模型第二轮:要求反对意见+风险清单; * 人类定稿:整合+替换 AI 用语为“自我表述”; * 模型第三轮:语言校对与格式化。 个人感受 作者的语气有一种“救火式”的务实:别指望一条总则,先把五条小习惯固化下来,你的大脑就会重新“热起来”。 延伸思考 这些方法与科研写作、代码评审、产品文档同样适用:让 AI 做“对手方—提示器—校对员”,而不是“替身”。 精华收获 * 一句话总括:AI 不替代你的思考,AI 放大你的思考。 五、三条可操作的脑力训练:不借 AI 也能变聪明 [9:58-12:25] 核心观点 * 运动、睡眠、主动表达,是 Amen 反复验证的“通用增益器”。它们不华丽,却能直接把供血、记忆巩固与可塑性推高。 深度阐述 1. 动起来,大脑才会亮起来:快走 20 分钟即能显著提升注意/语言/情绪相关区域活跃;很多“想不通”不是思路问题,而是供血问题。2) 睡够觉,记忆才会“打包”:白天学到的东西在夜间分类入库,熬夜就像保存中断;睡前关掉 AI,写几句总结作为“入库线索”。3) 多说多写多表达:人脑像橡皮筋,越拉越有弹性;给自己每天一个“AI 替不了”的表达任务,比如用自己的话解释一条新闻或向同事口述一个决定背后的三条证据。 “只要坚持运动、保证睡眠、主动表达,大脑就会自然恢复活力。” 方法论操作指南(每周 3 次×30 分钟) * 10 分钟中等强度运动(快走/跳绳); * 10 分钟手写总结(今日三个要点+一个反思); * 10 分钟口头表达(向一位同事/家人解释一个复杂点,不看稿)。 视觉信息描述:口述为主,无训练表格展示;建议以清单化落实。 个人感受 作者把“AI 时代的脑力训练”拉回到“朴素但有效”的生活处方,避免了高概念的口号,给出可当日执行的动作清单。 延伸思考 当我们谈“与 AI 共舞”,底座其实是“更好的大脑生态”:供血、巩固与表达循环跑起来,AI 的加成才不会变“替代”。 精华收获 * 先修生理与表达底盘,再谈 AI 协同,顺序千万别倒。 六、收束:效率与主权,如何在日常里两全 [12:27-13:15] 核心观点 * AI 不会替你生活,但会悄悄改造你的生活方式;保留主动并非拒绝工具,而是设计“人定目标—机做草案—人做推理—机反对论证—人类定稿—机做校对”的闭环。 深度阐述 Sejnowski 的提醒指向“思维主权”:当你不主动用自己的大脑,AI 就会替你做决定,久而久之,你写的句子、说的话、甚至你的想法,都不再像“你”。作者据此给出一套可以落地的协同节拍:人先定方向与约束,AI 出草案;人类补充推理链并要求 AI 反对与找漏洞;人类基于冲突做定稿,最后把语言/格式交回 AI。把每一步都变成“训练回路”,效率与参与度就能同框。 “AI不会替你生活,但是它会悄悄地改变你的生活方式……如果你不主动用自己的大脑,AI就会替你来做决定。” 视觉信息描述:结尾为口述总结,没有额外画面要点。 个人感受 作者在片尾的情感基调是“收刀入鞘”的克制:承认 AI 的帮助,也承认它的侵蚀路径;真正困难的是在每一次“省事”的诱惑面前,保留一点点“自己来”。 延伸思考 这不仅是写作/知识工作者的自我管理命题,也是教育与组织的制度设计命题:如何把“过程参与”纳入评价,防止“体面产出”挤压“真实训练”。 精华收获 * 今日起可执行的三件小事:写作前手写 5 分钟提纲;要求 AI 先做“反对者”;结尾用自己的话重述三条要点并关掉屏幕 2 分钟回忆。 聊天讨论群,微信群二维码,可加个人微信gxjdian入群
* 本片以 DeepMind 首席科学家 Denny Zhou 在 Stanford CS25 的公开讲座为蓝本,系统回顾从“把推理当作中间步骤”这一工程化定义出发,如何依次走过思维链(CoT)、思维链解码、置信度信号、提示工程(few-shot CoT 与 “Let’s think step-by-step”)、监督微调(SFT)的瓶颈,再到“验证器+自我进化”(Self-Improve/STaR)与强化学习微调的范式升级,并在推理时用“自洽性(Self-Consistency)”与“检索×推理(RAG 雏形)”进一步提升稳健性与可用性;最后总结“四条黄金法则”,指出当下最大瓶颈是“自动可验证的任务稀缺”。 开篇引入 每一个经常使用大模型的人,都体验过那种“过山车式”的落差:同样是复杂问题,模型有时能娓娓道来、条分缕析,让人恍惚看见屏幕后面有个会思考的“人”;但稍一变体,它又会错得离谱,仿佛只是在模仿网上的套路。这种悖论并非玄学,而是方法。作者以 Denny Zhou 的斯坦福讲座为线索,把“推理”的哲学争论拉回到可操作的工程框架:推理,就是输入与答案之间“中间步骤”的生成与利用。围绕这一定义,视频把 CoT、SFT、Self-Improve、验证器、强化学习微调,以及推理时的自洽性与检索增强,整合成一条清晰、可落地、能复现的演进路径。读完本文,你不会再把“推理”当作迷雾,而是能拿起具体的抓手:怎样引导模型思考、如何验证答案、何时聚合多次输出、在什么地方接入检索,乃至该如何定义“对”的标准。 一、从悖论体验到核心谜题 00:00-02:09 核心观点 * 大模型的“会推理”与“像复读机”并存,症结不在“它有没有智能”,而在我们对“推理”的定义与调用方式。 * 重要原话:“关于模型到底会不会推理的哲学辩论,他从不参加……在他的团队里,‘推理’有一个非常具体的含义:输入和输出之间的中间步骤。” 02:26-02:48 个人感受作者有意识地“降维打击”那种宏大争论:把问题落到“怎么做”,更像一位工程型观察者的选择。 延伸思考一旦接受“推理=中间步骤”,你的关注点就会转向:如何诱导它生成更好的步骤、如何筛选正确步骤、如何在推理时聚合、如何把外部知识接进来。后面的全部章节,都是围绕这四问展开。 精华收获 * 争论“有没有智能”不如问“中间步骤怎么来、怎么用”。 * 概念工程化,是把“神秘能力”转成“可优化流程”的第一步。 二、推理的工程定义:中间步骤即能力 02:12-03:45 核心观点 * “中间步骤”的存在可被设计任务直接检验;它让“思考”变成可观测、可度量、可训练的对象。 * 重要原话:“将 l 和 e 拼接起来,得到 le。” 03:33-03:37 个人感受作者不断提醒“不要被拟人化迷惑”,这是一种保持方法论清醒的克制。 延伸思考“末尾字母拼接”作为“首字母拼接”的对照实验,揭示了“数据记忆”与“过程推理”的边界:前者在预训练中见得太多,后者才逼近“逻辑操作”的本质。 精华收获 * 推理的“过程可视化”让我们可以检验、比较、调度不同的解题路径。 * 任务设计是检验“过程是否存在”的关键手段。 三、祛魅范式:从“首字母”到“末尾字母” 03:45-04:40 核心观点 * 好的任务设定能排除“记忆幻觉”,检出真正的“过程能力”。 * 重要原话:“于是他换成了‘末尾字母拼接’,结果当时所有的模型都失败了。” 04:19-04:24 个人感受作者对“巧妙任务设计”的欣赏溢于言表——它用最小代价,澄清了最核心的误解。 延伸思考很多“看上去会”的能力,可能都是“频次陷阱”。任何能力评测,都要小心“预训练数据泄漏”的伪像。 精华收获 * 通过任务切换,区分“记忆频次”与“过程推理”。 * 能稳定外显中间步骤,才是可用的推理起点。 四、理论基座:布尔电路与 O(T) 中间步骤 04:38-06:01 核心观点 * 理论上,常数大小的 Transformer 通过生成足够长的中间步骤,可以解决“大小为 T 的布尔电路所能解决的问题”。 * 重要原话:“让模型‘思考’,生成中间步骤,不是可有可无的选项,而是在计算原理上解锁复杂问题能力的一把‘金钥匙’。” 05:49-05:54 个人感受作者在此明确“从追求答案转向追求过程”的范式变更,这种“目标函数”的更换,决定了后续所有技术选择。 延伸思考外显步骤不仅是“模型友好”,更是“系统工程友好”:你可以存档、审计、聚合、比较、路由,构成“人机共解”的基础设施。 精华收获 * 过程外显让有限容量的模型,具备“线性展开复杂计算”的潜力。 * “答案导向”变为“过程导向”,是推理范式的分水岭。 五、解码即能力:从贪婪解码到思维链解码 06:01-08:46 核心观点 * 预训练模型“已准备好推理”,关键在“换一种解码方式”去探索隐藏的正确路径。 * 重要原话:“正确的推理路径,其实一直都存在于模型的输出空间里……默认的贪婪解码因为只看了眼前最宽的路,所以错过了它们。” 08:16-08:27 精华收获 * 解码策略≠无关紧要;选择何种“走路方式”,决定你是否能“走到对的地方”。 * CoT 解码把“能力发现”变成“路径发掘”。 六、答案置信度:从“感觉对”到“可度量的笃定” 08:48-09:47 核心观点 * 对含正确思维链的回答,模型在“最终答案 token”上的内部置信度显著更高,可作为筛选信号。 精华收获 * 中间步骤要配“答案层置信度”一起用;“又长又错”的推理链,并不罕见。 * 筛选器的“硬信号”,比“好看”的过程更可靠。 七、提示工程两条路:Few-shot CoT 与“Let’s think step-by-step” 10:07-12:09 核心观点 * Few-shot CoT 用示例“重塑分布”,把“带过程的好答案”推到解码前列;“Let’s think step-by-step”则以零样本方式“通用唤醒”推理。 * 重要原话: “让我们一步步思考(Let’s think step-by-step)。” 11:23-11:28“结果,他震惊地发现,它真的有效!” 11:46-11:49 个人感受作者坦率呈现“从质疑到服气”的过程:对方法保持怀疑,同时愿意用实验说话。 延伸思考零样本提示的成功,说明“会思考”并非“塞进模型的插件”,而更像“分布中已有的模式被轻唤醒”。 精华收获 * few-shot 是“强塑形”,step-by-step 是“轻唤醒”;两者可视情况取舍。 * 提示工程的本质,是“分布重排”。 八、SFT 的瓶颈与“验证器+自我进化(Self-Improve/STaR)” 12:30-17:33 核心观点 * 重要原话:“错误,出在‘人’身上。” 14:24-14:26 * 重要原话:“我们不再关心模型的解题过程是否和人类一模一样,我们只关心一件事:它最终的答案是否正确。” 16:26-16:34 精华收获 * SFT 像“教它学样子”,Self-Improve 像“让它学成效”。 * 验证器是新范式的地基:没有自动可验证,就没有闭环。 九、学习 vs 搜索:类人启发式与“2025=45²” 17:59-20:14 核心观点 * 重要原话:“值得注意的是,2025 是 45 的平方。” 19:21-19:24 个人感受作者对“类人启发式”的惊喜,来自它“不像程序”的那一面——这让“推理”第一次有了“味道”。 延伸思考这也解释了为何“过程外显”重要:它让你看到“洞察”本身,从而把“知识工程”转向“洞察工程”。 精华收获 * 学习能涌现“可迁移的启发式”,减少对“暴力搜索”的依赖。 * 搜索是工具,学习是底座。 十、推理时增强:自洽性(Self-Consistency)与聚合 21:06-24:08 核心观点 * 重要原话:“当在这个基础上再用上‘自洽性’技术后,准确率直接飙升到了 75%……PaLM 2 上甚至达到了 92%。” 23:27-23:36 个人感受作者把“集体智慧”引入个体模型:不是找一个最佳过程,而是汇集多个“足以通达”的路径,用投票消掉偶然性。 延伸思考自洽性的要点是“独立采样”,一次性生成多个答案“并不等价”。它也要求“答案形式唯一且可比较”,开放表达需用“通用自洽性”对齐语义。 精华收获 * 在推理时“跑多次+投票”,是极高性价比的稳健化手段。 * 目标函数的对齐(答案层面)远比“过程美感”重要。 十一、检索×推理:类比提示与 Step-Back(RAG 雏形) 24:47-26:28 核心观点 * 不必纠结“推理 vs 检索”的二元对立;把外部检索引入推理链,可显著提升结果。 深度阐述作者展示两个轻巧“检索诱发”的提示: * 类比推理:先让模型“回忆一个相关问题再解答”,模型会“自检索”出“平面两点距离公式”,继而顺利解几何面积; * Step-Back:先“退一步”总结解决这类问题所需的基本原理,再回到具体题目。 它们的思想都与 RAG 一致:用外部/显式知识补足内部表征,并把知识摆到“思考过程”的关键节点。作者强调,作为从业者,“只关心性能”,不要在“是不是检索”上对立。 * 重要原话:“把检索和推理结合起来,效果就是更好。” 25:09-25:10 个人感受作者的务实态度明确:用什么不重要,“更好的答案与更稳的过程”才重要。 延伸思考RAG 的未来不是“附加说明书”,而是“过程节点处的知识注入”,它应参与到“中间步骤”的调度中。 精华收获 * 把“知识引入”嵌进推理链本身,而非仅做“附注”。 * 类比与 Step-Back 是低门槛“检索×推理”的两把快刀。 十二、四条黄金法则与“验证器难题” 26:37-28:09 核心观点 * 四条法则:有推理优于无推理;强化学习微调优于 SFT;聚合多个答案优于单次生成;检索+推理优于纯推理。最大瓶颈:大多数现实任务“不可自动验证”。 * 重要原话:“任务的答案是可以被自动验证的……在现实世界中,大量更有价值的任务并没有这样的‘验证器’。” 27:30-27:40 个人感受作者的“务虚与务实”在此合流:既给出法则,又直指“验证器稀缺”的现实难题。 延伸思考没有现成验证器,就需要“代理指标与多观测信号”的组合评估,或“人机共评”的半自动循环;这会成为新一代产品与研究的交叉地带。 精华收获 * 法则可落地,难点在验证;验证器设计将成为“AI 产品力”的核心学问。 * 把“奖励定义权”握在手里,你才真正“定义了智能”。 十三、尾声:方法论的回归与升级 28:23-29:05 核心观点 * 真相往往更简单:思维链、自洽性、RL 微调的本质,都是“回到机器学习最本源的原理”。 深度阐述作者引用费曼“真相最终总是比你想象的要简单”,呼应全片:定义目标(答案正确)、计算梯度、反向传播,把“过程外显+路径筛选+多次聚合+知识注入”系统化,推理就不再神秘。我们穿过术语与热点,发现能改变一切的,往往是“把问题说清楚”的朴素道理。 * 重要原话:“本质上就是三件事:定义你的目标(Metric)、计算梯度(Gradient)、然后反向传播(Back Propagation)。” 16:56-17:01 个人感受作者的基调落在“可复制的清晰”上:以工程的方法拥抱“推理”。 精华收获 * 把“思考过程”建成工程系统,推理就能稳、能审、能演进。 * 最好的“超越”,常来自“回到根本”。 聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)
不知道大家有没有认真思考过一个问题,OpenAI 刚刚发布的 GPT-5,背后究竟有着怎样的目的呢?当很多专业用户还在为 GPT-5 的功能不够惊艳,而感到失望的时候,他们可能忽略了一个更重要的信号,那就是这一次,OpenAI 的目光可能根本就不在他们身上。为什么会这么说,SemiAnalysis 给出了一篇详细的分析,虽然这篇文章的字数不像以前那么多,但是我觉得它的重要性,反而可能会远胜其他文章,所以迫不及待地想跟大家分享一下。 原文链接:semianalysis.com 开篇引入 当人们还在争论 GPT-5 的参数增加了多少、推理速度快了多少时,作者已经把镜头对准了另一条不那么耀眼却更具颠覆性的动脉:商业化。过去两年,ChatGPT 用“免费”征服了 7 亿用户的注意力,却只靠 Plus 订阅赚些“零花钱”。如今,OpenAI 不再遮掩自己的野心——让那条巨大的免费流量矿脉迅速变现,而钥匙正是一枚听上去平平无奇的组件:路由器。它既是算力调度器,也是商业价值探测器,更是即将把搜索、社交与广告模式搅成一锅粥的催化剂。本文沿着作者的逻辑,把 GPT-5 的技术升级、人员动向和产业效应拆解到底,让你无需回看视频,也能洞悉这场“商业一战”的来龙去脉。 详细内容 一、变现序幕:GPT-5 的真正使命 00:00-01:21] 核心观点 GPT-5 的发布重点不在模型能力,而在向 7 亿免费用户“收租”的商业序曲。 深度阐述 视频伊始,作者抛出一个反问:“OpenAI 刚刚发布 GPT-5,背后究竟有着怎样的目的?”随后搬出一连串数据:ChatGPT 站点自 2023 年底还排不进全球前 100,如今已冲到第 5;月活超过 7 亿,增速仍在攀升。作者强调,这群用户几乎没有被商业化,真正的“宝藏”就在这里。由此引出 SemiAnalysis 的核心论断——GPT-5 是一场面向免费用户的变现盛宴。作者特地引用原话:“与其说 GPT-5 是一次模型能力的大升级,倒不如说它是为这 7 亿免费用户准备的一场变现盛宴的序幕” 01:15]。 在这个段落里,作者的语调既带着“看穿玄机”的笃定,也隐藏着对商业化的谨慎兴奋——好像在提醒观众:别再只盯着参数,真正的游戏才刚开始。 延伸思考 技术升级让用户感知“好用”,商业升级则让平台“好赚”。当两者共振,产品体验与商业闭环将互相加速,这种双螺旋模式或许才是 OpenAI 意图复制的互联网大厂成功学。 精华收获 * 真正的大招不是参数,而是流量变现。 * 7 亿免费用户的“注意力本票”已被 GPT-5 正式兑付。 二、路由器:成本与体验的双刃剑 01:22-03:20] 核心观点 “路由器”负责把不同价值的请求分派到不同算力,既降低运营成本,又放大用户体验差异,为商业化铺路。 深度阐述 作者逐字拆解 OpenAI 博客第二段,用高亮圈出“integrated system”“router”等关键词,并解释其作用: 1. 成本维度:路由器把“今天天气”这种廉价查询送去 GPT-5 mini,让资源消耗接近搜索成本; 2. 体验维度:对“复杂推理”调用 GPT-5 Thinking,让免费用户第一次感到“思维链”的魔力。 此举让 ChatGPT 在不额外收费的前提下展现“明显升级”,首日即带来“思维模型免费用户增长 7 倍,付费用户增长 3.5 倍” 02:58]。作者用一张三角形分层示意图,左侧标注 mini/thinking,右侧循环箭头展示反馈学习,让抽象机制直观可视。 下一步呢?作者点破:只要给路由器再加一条“商业价值判断”维度,高意向查询就会被标记并投入更多算力,甚至联动外部工具完成交易。至此,路由器从算力调度器摇身一变,成为商业雷达。 延伸思考 在机器学习的世界,“标签”就是权力。路由器为查询贴上“是否值钱”的标签,意味着广告系统可以像竞价广告那样,把算力按 CPM/CPA 理价并动态出价,这将刷新“广告=展示位”的旧思维。 精华收获 * 路由器 = 技术分层 + 商业价值侦测。 * 技术与商业的耦合,让“免费”不再是成本黑洞。 三、边际成本的回归与商业查询的黄金矿脉 03:21-07:04] 核心观点 大模型引入“可变算力→可变答案质量”机制,使互联网久违的边际成本重新出现,为商业查询溢价提供空间。 深度阐述 作者引用本·汤普森“聚合理论”中“零边际成本扩张”的经典论点,然后指出 GPT 体系的巨大差异:思维链推理要吃 token,“钱花越多,答案越好”。为了让观众感知,他用两种查询对比: * “天空为什么是蓝色?”→ mini 模型即可回答; * “附近最佳酒驾律师是谁?”→ 路由器认定高价值,可投入高达 50 美元算力生成法律计划并主动联系律师 08:40-08:54]。 这样的动态成本结构意味着:每一次商业意图查询都是潜在的广告位。如果最终律师成交几千美元案件,50 美元算力成本不啻于“精准投放”。 作者的语速在这一段骤然加快,配合手势比划“成本阶梯”,把兴奋感传递给观众。 视觉信息描述 屏幕一分为二:左侧展示“天空为什么蓝”对话框,右侧展示多行推理链输出、律师列表与拨号按钮,文字大小差异暗示算力差异。 延伸思考 Cost as Quality 的理念一旦在 AI 里普及,广告标价将从“曝光”变为“算力投入”,内容创作者或商家要学会“投算力”竞争,而非仅投钱买曝光。 精华收获 * 边际成本的复活让“答案”与“成本”绑定,为广告溢价打开空间。 * 高价值查询可直接吸走搜索最肥的长尾。 四、从人事变动看 OpenAI 的“广告口风” 05:06-05:57] 核心观点 Fidji Simo 入职与 Sam Altman 的态度转弯,暗示广告/佣金已从“最后选择”变为“首选策略”。 深度阐述 作者先介绍 Fidji Simo ——Facebook 移动广告传奇、信息流与自动播放视频背后的推手,如今成为 OpenAI 应用部门 CEO。这是把广告基因植入高管层的硬信号。 随后引用 Altman 的最新访谈:“我们不会修改模型输出,但若用户点击原本就会出现的内容,我们抽取交易收入也未尝不可” 04:38-04:55]。作者点评:“口风转向”,并解释这句话是对“联盟分佣”模式的官方背书——内容不被广告污染,链路却能收佣金。 个人感受 作者调侃式地说:“连 Altman 都不再说 ‘广告是最后一条路’,说明钱的问题迫在眉睫。”语气里既有戏谑也有对商业现实的洞察。 精华收获 * 高级广告人才 + CEO 职位 = 商业化绝非试水,而是主航道。 * “内容洁癖”与“佣金收益”两不误的联盟模式呼之欲出。 五、超级 Agent:从联盟链接到端到端交易 07:05-10:30] 核心观点 一旦路由器学会判断商业价值并调度外部 API,ChatGPT 将演变为端到端购物/服务助理。 深度阐述 作者描绘了一个未来场景:用户让 ChatGPT 规划一周菜谱,Agent 直接把材料加入 Instacart 购物车,并按预算选择最快送达的商家完成结账。这并非幻想——Instacart 已上线“Agent 结账”功能,而推动者正是 Fidji Simo。与此同时,OpenAI 已与 Shopify 开发结账 API,Anthropic、OpenAI 也曾砸数十万美元训练 Agent 模拟亚马逊、DoorDash。 作者点明:联盟分佣只是第一步,当 Agent 拥有支付与 API 调用权限,就能把佣金提升到“交易佣金”层级,企业会蜂拥接入以获取“AI 渠道”流量。 视觉信息描述 视频展示 Instacart Demo:对话左侧饮食建议,右侧购物篮自动填充、显示“ChatGPT Agent - 推荐折扣 5%”。 延伸思考 鹰视角看,这是一条与 Apple Pay、Amazon Buy With Prime 类似的“买单层”,但由 AI 助理主导,意味着传统电商漏斗被“对话链路”打平,搜索与社交都可能被绕开。 精华收获 * 联盟转化→API 交易→全链路佣金,商业价值呈指数跃迁。 * 企业接入越多,Agent 能力越强,用户粘性越高,形成正反馈。 六、三重冲击:搜索、社交、展示广告的未来 10:31-14:47] 核心观点 AI Agent 的商业闭环同时威胁搜索竞价、社交广告与展示广告,传统巨头必须重新排兵布阵。 深度阐述 作者引用 SemiAnalysis 调研:Etsy、Wayfair 等电商已有约 10% 流量来自 AI 推荐,其中 ChatGPT 占 90%。这意味着搜索广告的“黄金长尾”正被 AI 截流。社交平台虽然保住用户时长,但如果购买链路让位于 Agent,流量就失去“高转化溢价”。更糟的是,Snapchat、Banner 程序化广告等 ROI 较低的展示位可能被立即砍预算,广告主会把钱投向 AI 通道,以追求更高转化率。 作者语气沉稳,仿佛为 Google、Meta 按下警报:“以前担心的是搜索被分流,现在连广告分成都岌岌可危。” 视觉信息描述 屏幕显示三柱图:搜索广告、社交广告、展示广告收入,第三根柱子被标红箭头标注“AI 抢食”。 延伸思考 AI 推荐将加速“内容为 AI 写,广告向 AI 付费”的闭环,人类在电商链条中的可见度或进一步降低,品牌与平台必须思考“说服 AI”的新型 SEO——AIEO。 精华收获 * AI 商业闭环一次性动摇三大广告支柱。 * 预算会跟随 ROI 迁移,巨头或被迫重塑广告技术栈。 七、尾声:商业一战才刚开始 14:48-16:34] 核心观点 OpenAI 借 GPT-5 已跨过冷启动鸿沟,广告分佣与 Agent 交易将并行推进,传统巨头将迎来真正的竞争。 深度阐述 作者以一句“是时候看看‘大象们’能否起舞了”收尾,并抛出问题:“当 ChatGPT 里出现购物链接,你会点击吗?”这种半调侃半预测的提问,既反映不确定性,也透露对变革速度的惊讶。作者邀请观众留言讨论,显现出对社区共创观点的重视,也为后续话题埋下伏笔。 精华收获 * 路由器是商业闭环的底座;GPT-5 是商业战役的号角。 * Google、Meta、Amazon 必须给出即时回应,否则搜索-社交-电商的三位一体格局将被改写。 结语 GPT-5 的故事不止于“推理更强”,更在于“钱从哪来”。当路由器把算力和商业价值串在一起,ChatGPT 正在从“AI 问答框”演进为“全能交易入口”。对普通用户,这意味着未来的“买、订、比价”可能只需一句话;对商家,这是降低获客成本的新跳板;对广告巨头,则是一场不得不接招的硬仗。现在回望,你是否已听见那枚小小路由器启动时无声却巨大的轰鸣? 聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)
* 标题:【人工智能】什么是上下文工程 Context Engineering|上下文 Context|Agent 的缺点|提示词工程|RAG|MCP|写入|选取|压缩|隔离 * 时长:15 分 20 秒 开篇引入 当你第一次把 ChatGPT、Claude 或 Llama 接入自己的应用,往往会惊叹于它们在 demo 阶段仿佛无所不能;可一旦需要持续稳定地执行多步任务,它们就像一位忘性极大的同事,时而“断片”、时而输出幻觉。大飞在这支 15 分钟的视频里给出了一个犀利的诊断——问题往往不在模型,而在我们没有给它准备好“记忆”和“工具”——即上下文工程 (Context Engineering) 的失败。 这场短小却密度极高的讲解,不只厘清了 Prompt Engineering、RAG、MCP 与 Context Engineering 的关系,更给出了“四字诀”——写入、选取、压缩、隔离,让我们得以像操作系统里的内存管理器一样,精确调度每一 Token 的价值。以下文字,将带你比看视频更深入地理解这门新兴“工程学”的全貌与实战要义。 一、什么是“上下文”?——从聊天记录到三大维度 [00:00-02:20] 核心观点 上下文不是简单的聊天历史,而是所有支撑模型下一步推理的多维信息,可分为指导性、信息性、行动性三大类。 深度阐述 开场不到一分钟,大飞就抛出挑衅性问题:“上下文就是聊天记录吗?”随后他给出更具系统性的定义:“提供给大语言模型用于完成下一步推理或生成任务的全部信息集合”。 他将其拆解为三类: * 指导性上下文 (Guiding Context):系统提示、任务描述、Few-shot 示例、输出格式。简言之,它告诉模型“做什么、怎么做”。 * 信息性上下文 (Informational Context):外部检索结果、短期/长期记忆、State、Scratchpad。它回答“需要哪些知识”。 * 行动性上下文 (Actionable Context):工具定义、调用与结果。它限定“能做什么,以及做完之后的反馈”。 “上下文其实是一个多维、动态、服务于特定任务的系统性的概念,远不止我们以为的聊天记录那么简单。” [01:52] 视频画面里,大飞用一张三栏表格配合颜色高亮,把三类上下文与典型元素一一对应,直观展示层级关系与信息流动方向。若读者脑海里仍将“上下文”简化为聊天历史,这一视觉示意会强迫你建立更立体的认知。 个人感受 你能明显感受到作者的急迫感:如果不先端正“上下文”观念,后续关于工程方法的讨论根本无从谈起。 他多次用“远不止”“其实”来纠正大众误区,语气里带着技术布道者的坚决。 延伸思考 在多模态模型时代,图像、音频乃至传感器数据也将流入上下文窗口——三大类别或许还要继续细分:指导性 prompt 可能包含视觉例子,行动性上下文会涉及 API 之外的物理执行器。 精华收获 * 摆脱“聊天记录”窄定义,理解三类上下文的职能差异。 * 为后续工程手段奠定清晰坐标系。 二、上下文工程的诞生与角色定位 [02:20-04:20] 核心观点 上下文工程是一门系统学科,负责像内存管理器一样,在每个时刻为模型组装“恰到好处”的上下文组合。 深度阐述 大飞借用 Shopify 创始人 Tobi Lütke 和 Andrej Karpathy 的引语,将 Context Engineering 定义为“提供全部必要上下文的艺术与科学”。他打了一个绝妙比喻: “如果把 Agent 视为新型操作系统,模型是 CPU,上下文窗口是内存;上下文工程就是内存管理器,负责决定何时加载、何时换出、何时优先处理。” [03:22] 视频中出现一张 OS 结构示意图:CPU、RAM、Cache 被替换成 Model、Context Window、Scratchpad,红色箭头表示数据在时钟周期中的流动,让技术背景薄弱的观众也能秒懂其职责。 作者进一步指出:Prompt Engineering 与 RAG 只是“单点优化”,而上下文工程是“系统级调度”。它既要考虑检索什么,也要动态重组三类上下文,并在 RAG 失败时选择其他工具。 个人感受 可以听出大飞在“系统”一词上刻意加重语调——这是一次范式升级,他希望观众把目光从单条 prompt 的技巧,抬到“信息供应链”的全局视角。 延伸思考 此比喻也暗示了未来岗位变迁:Prompt 工程师终将演化成“Context Ops”或“LLM Memory Architect”,职责更像数据库与缓存工程师的混合体。 精华收获 * 上下文工程的终极指标不是句子优美,而是系统吞吐量、成本与正确率。 * Prompt Engineering 与 RAG 将被纳入更宏观的上下文流水线。 三、为什么需要上下文工程:两个失败与成功的对照 [04:20-06:50] 核心观点 当模型能力跨过智能阈值后,性能瓶颈几乎都由上下文缺失或冗余引起。 深度阐述 大飞给出两个生动案例。首先是邮件助手场景:Agent 只看到一句“明天有空聚一下吗?”就机械回复;而上下文充足的版本先检索日历、识别联系人重要性、选择合适语气,并提供 send_calendar_invite 工具定义,最终生成能推进事务的回复。 “这里的‘魔力’,并非更智能的模型,而是一个能够为特定任务动态组装合适上下文的系统。” [06:35] 第二个例子聚焦编程 Agent 的长期任务。朴素策略将所有历史交互塞进上下文,导致性能下降、成本激增、最终溢出窗口。屏幕上同时播放 token 计数实时跳涨的动画,直观展示“线性累加”策略的灾难。 个人感受 随着两个对照场景交替播放,你会真切体会到“缺上下文”和“乱上下文”都是致命伤。大飞在提到“上下文干扰”时皱眉、略带无奈,像极了 Debug 时面对幻觉回答的开发者。 延伸思考 这部分为企业应用敲响警钟:模型升级并非灵丹妙药,投入前先自问能否持续提供高质量上下文,否则预算可能都烧在无效 token 上。 精华收获 * 动态组装远优于历史全量累加。 * 成本、延迟、正确率三角中,“上下文策略”是最可控的杠杆。 四、上下文工程四字诀:写入、选取、压缩、隔离 [06:50-13:40] 1. 写入 (Write) 06:50-10:00] 核心观点 通过会话内 Scratchpad 和持久化 Memory,将中间产物与长期价值信息写出上下文窗口之外,为后续检索做准备。 深度阐述 大飞首先区分 Session-level Write(草稿纸)与 Persistent Write(向量数据库/知识图谱)。他示例 ChatGPT 的记忆功能、Anthropic 建议的“子 Agent 写入文件系统”,强调写入是打破窗口上限的前提。画面演示一段代码:Agent 把阶段性计划 JSON 写入 S3,再记录到 PGVector 索引,供未来检索。 个人感受 作者在介绍写入时语速放缓、声音上扬,仿佛在说:“先别急着把东西全塞模型,这里才是长效记忆的入口。” 延伸思考 在隐私敏感场景,写入策略需与加密、数据分级结合,形成“零信任上下文存储”。 精华收获 * Scratchpad 降低短期思考负载,Memory 实现跨会话知识积累。 * 写入质量直接决定后续选取效果。 2. 选取 (Select) 10:00-11:06] 核心观点 在每次调用前,动态拉取与当前子任务最相关的信息,确保上下文信噪比。 深度阐述 大飞将选取分成三类:Deterministic、Model-driven、Retrieval-based,并用 Claude Code 固定加载 CLAUDE.md、模型自筛与向量检索逐一示例。他提示RAG 只是选取里的“检索式”子集,不要把两者等同。 个人感受 此段他用“信噪比”一词反复强调,技术人立刻能联想到信息论的 Shannon 比喻,增加专业沉浸感。 精华收获 * 选取策略决定了后续压缩与推理能否聚焦真正要点。 3. 压缩 (Compress) 11:06-12:00] 核心观点 在有限窗口内,以有损或无损方式用更少 token 保留核心信号。 深度阐述 大飞举 Claude Code 的 “auto-compact” 自动摘要为例,指出其尚不完善,“与其自动压缩,不如最小上下文重启”。他补充硬截断策略虽简单,却可能丢失必要语境。 个人感受 当他说到“硬截断”时轻叹一声,透出实际开发中被截断坑过的无奈,这种情绪贴近一线工程师的痛点。 精华收获 * 压缩算法选择需权衡信息完整性与 token 预算。 4. 隔离 (Isolate) 12:00-13:40] 核心观点 在系统架构层面为多信息流设边界,通过子 Agent 或沙盒先行消化,仅上交摘要,既降噪又降成本。 深度阐述 隔离被视为“跨流压缩”。大飞引用 Anthropic “搜索即压缩”理念,延伸到多 Agent 架构:子 Agent 像专家团队,主 Agent 只处理提炼后的摘要报告。屏幕上动画展示主-子 Agent 栈调用,主流 Green/Red 通道分别代表高价值摘要与原始长文,强化“减负”直观感。 精华收获 * 隔离通过模块化降低上下文冲突,是大规模系统的必备设计。 五、MCP:上下文工程的接口基建 [13:40-15:00] 核心观点 模型上下文协议 (MCP) 是为行动性及部分信息性上下文提供标准化交换的基础设施,是实现稳健上下文工程的管道。 深度阐述 在收束全文前,大飞再次点题:MCP 可被视为“上下文交换协议”,让 Agent 与工具/数据源通信更安全、流畅。 “多数 AI Agent 的失败,并不是模型能力上的失败,而是上下文工程的失败。” [15:00] 这句近乎宣言的话,配合作者举起的 T 恤广告牌,既自嘲也强化记忆点。 延伸思考 随着 Open-AI function calling、LangChain Schemas 等方案涌现,MCP 不止一种实现,但**“接口即治理”**——标准化是团队协作与合规落地的前提。 精华收获 * 工程不是孤岛,标准协议决定生态生死。 * 做好上下文工程,要像 DevOps 一样重视接口规范。 全文精华收获 * 观念升级:上下文是多维动态系统,Prompt 与 RAG 只是其中组件。 * 系统思维:把自己当作内存管理器,以写入-选取-压缩-隔离四步对信息流做全链路治理。 * 性能杠杆:当模型能力趋同,胜负手在于上下文供应链;成本、延迟、正确率可通过精细调度显著优化。 * 方法论落地: * 会话 Scratchpad + 持久 Memory 构建长期记忆。 * 三类选取策略确保信噪比。 * 压缩算法与截断策略要结合任务敏感度。 * 多 Agent 隔离架构减轻主模型负担。 * 未来启示:Prompt 工程师的下一站是“Context Architect”;MCP 等协议将成为 LLM 基建的新战场。 透过 15 分钟的高密度讲解与本文的深度拆解,你不仅能够复现视频里的每个关键知识点,更能获得一套可立即用于产品设计与团队协作的上下文工程思维框架——让你的 LLM 系统少掉链子,多出成果。 聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)
我们所看到的世界,真的是真实的吗?我们每天触摸到的桌子,感受到的温度,品尝到的味道,这一切究竟是客观存在,还是仅仅是我们大脑为了生存,而构建出来的一场宏大的幻觉?如果有人告诉你,我们每个人从出生起,就戴着一副无法摘下的VR头显,我们所经历的一切,不过是一场精心设计的电子游戏,而游戏的最终目的,并不是让我们看清真相,恰恰相反,是为了将真相彻底隐藏。因为看到真实的世界,可能会让我们瞬间灭亡。这是顶尖认知科学家,唐纳德·霍夫曼(Donald Hoffman)教授,穷尽半生研究得出的结论,并且声称自己拥有严谨的数学证明。更令人震惊的是,他认为人类正处在一个关键的临界点,我们即将开始破解这个虚拟现实的底层代码。一旦成功,我们将掌握远超想象的力量,时空旅行不再是梦想,在这些新技术的面前,即便是核武器,都可能像是小孩子玩的鞭炮一样微不足道。 聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)
北京时间8月8日凌晨1点,OpenAI召开了最新的发布会,GPT-5 总算在万众期待中姗姗而至,此时,距离GPT-4的发布已过去了两年半。不过,这一次发布会显得格外的平淡。不太惊艳的Benchmark,丝毫没有新范式的影子,很难激起大家的兴趣,展示的用例也看不出与竞品的区别,甚至还有被网友抓包的PPT展示错误,共同构成了这1小时20分钟的发布会。今天我们就来回顾一下这场发布会的内容,看看GPT-5究竟都给我们带来了什么。 https://openai.com/index/introducing-gpt-5/ 聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)
与播客爱好者一起交流
添加微信好友,获取更多播客资讯
播放列表还是空的
去找些喜欢的节目添加进来吧