- 本片以 DeepMind 首席科学家 Denny Zhou 在 Stanford CS25 的公开讲座为蓝本,系统回顾从“把推理当作中间步骤”这一工程化定义出发,如何依次走过思维链(CoT)、思维链解码、置信度信号、提示工程(few-shot CoT 与 “Let’s think step-by-step”)、监督微调(SFT)的瓶颈,再到“验证器+自我进化”(Self-Improve/STaR)与强化学习微调的范式升级,并在推理时用“自洽性(Self-Consistency)”与“检索×推理(RAG 雏形)”进一步提升稳健性与可用性;最后总结“四条黄金法则”,指出当下最大瓶颈是“自动可验证的任务稀缺”。
开篇引入
每一个经常使用大模型的人,都体验过那种“过山车式”的落差:同样是复杂问题,模型有时能娓娓道来、条分缕析,让人恍惚看见屏幕后面有个会思考的“人”;但稍一变体,它又会错得离谱,仿佛只是在模仿网上的套路。这种悖论并非玄学,而是方法。作者以 Denny Zhou 的斯坦福讲座为线索,把“推理”的哲学争论拉回到可操作的工程框架:推理,就是输入与答案之间“中间步骤”的生成与利用。围绕这一定义,视频把 CoT、SFT、Self-Improve、验证器、强化学习微调,以及推理时的自洽性与检索增强,整合成一条清晰、可落地、能复现的演进路径。读完本文,你不会再把“推理”当作迷雾,而是能拿起具体的抓手:怎样引导模型思考、如何验证答案、何时聚合多次输出、在什么地方接入检索,乃至该如何定义“对”的标准。
一、从悖论体验到核心谜题 00:00-02:09
核心观点
- 大模型的“会推理”与“像复读机”并存,症结不在“它有没有智能”,而在我们对“推理”的定义与调用方式。
- 重要原话:“关于模型到底会不会推理的哲学辩论,他从不参加……在他的团队里,‘推理’有一个非常具体的含义:输入和输出之间的中间步骤。” 02:26-02:48
个人感受作者有意识地“降维打击”那种宏大争论:把问题落到“怎么做”,更像一位工程型观察者的选择。
延伸思考一旦接受“推理=中间步骤”,你的关注点就会转向:如何诱导它生成更好的步骤、如何筛选正确步骤、如何在推理时聚合、如何把外部知识接进来。后面的全部章节,都是围绕这四问展开。
精华收获
- 争论“有没有智能”不如问“中间步骤怎么来、怎么用”。
- 概念工程化,是把“神秘能力”转成“可优化流程”的第一步。
二、推理的工程定义:中间步骤即能力 02:12-03:45
核心观点
- “中间步骤”的存在可被设计任务直接检验;它让“思考”变成可观测、可度量、可训练的对象。
- 重要原话:“将 l 和 e 拼接起来,得到 le。” 03:33-03:37
个人感受作者不断提醒“不要被拟人化迷惑”,这是一种保持方法论清醒的克制。
延伸思考“末尾字母拼接”作为“首字母拼接”的对照实验,揭示了“数据记忆”与“过程推理”的边界:前者在预训练中见得太多,后者才逼近“逻辑操作”的本质。
精华收获
- 推理的“过程可视化”让我们可以检验、比较、调度不同的解题路径。
- 任务设计是检验“过程是否存在”的关键手段。
三、祛魅范式:从“首字母”到“末尾字母” 03:45-04:40
核心观点
- 好的任务设定能排除“记忆幻觉”,检出真正的“过程能力”。
- 重要原话:“于是他换成了‘末尾字母拼接’,结果当时所有的模型都失败了。” 04:19-04:24
个人感受作者对“巧妙任务设计”的欣赏溢于言表——它用最小代价,澄清了最核心的误解。
延伸思考很多“看上去会”的能力,可能都是“频次陷阱”。任何能力评测,都要小心“预训练数据泄漏”的伪像。
精华收获
- 通过任务切换,区分“记忆频次”与“过程推理”。
- 能稳定外显中间步骤,才是可用的推理起点。
四、理论基座:布尔电路与 O(T) 中间步骤 04:38-06:01
核心观点
- 理论上,常数大小的 Transformer 通过生成足够长的中间步骤,可以解决“大小为 T 的布尔电路所能解决的问题”。
- 重要原话:“让模型‘思考’,生成中间步骤,不是可有可无的选项,而是在计算原理上解锁复杂问题能力的一把‘金钥匙’。” 05:49-05:54
个人感受作者在此明确“从追求答案转向追求过程”的范式变更,这种“目标函数”的更换,决定了后续所有技术选择。
延伸思考外显步骤不仅是“模型友好”,更是“系统工程友好”:你可以存档、审计、聚合、比较、路由,构成“人机共解”的基础设施。
精华收获
- 过程外显让有限容量的模型,具备“线性展开复杂计算”的潜力。
- “答案导向”变为“过程导向”,是推理范式的分水岭。
五、解码即能力:从贪婪解码到思维链解码 06:01-08:46
核心观点
- 预训练模型“已准备好推理”,关键在“换一种解码方式”去探索隐藏的正确路径。
- 重要原话:“正确的推理路径,其实一直都存在于模型的输出空间里……默认的贪婪解码因为只看了眼前最宽的路,所以错过了它们。” 08:16-08:27
精华收获
- 解码策略≠无关紧要;选择何种“走路方式”,决定你是否能“走到对的地方”。
- CoT 解码把“能力发现”变成“路径发掘”。
六、答案置信度:从“感觉对”到“可度量的笃定” 08:48-09:47
核心观点
- 对含正确思维链的回答,模型在“最终答案 token”上的内部置信度显著更高,可作为筛选信号。
精华收获
- 中间步骤要配“答案层置信度”一起用;“又长又错”的推理链,并不罕见。
- 筛选器的“硬信号”,比“好看”的过程更可靠。
七、提示工程两条路:Few-shot CoT 与“Let’s think step-by-step” 10:07-12:09
核心观点
- Few-shot CoT 用示例“重塑分布”,把“带过程的好答案”推到解码前列;“Let’s think step-by-step”则以零样本方式“通用唤醒”推理。
- 重要原话:
“让我们一步步思考(Let’s think step-by-step)。” 11:23-11:28“结果,他震惊地发现,它真的有效!” 11:46-11:49
个人感受作者坦率呈现“从质疑到服气”的过程:对方法保持怀疑,同时愿意用实验说话。
延伸思考零样本提示的成功,说明“会思考”并非“塞进模型的插件”,而更像“分布中已有的模式被轻唤醒”。
精华收获
- few-shot 是“强塑形”,step-by-step 是“轻唤醒”;两者可视情况取舍。
- 提示工程的本质,是“分布重排”。
八、SFT 的瓶颈与“验证器+自我进化(Self-Improve/STaR)” 12:30-17:33
核心观点
- 重要原话:“错误,出在‘人’身上。” 14:24-14:26
- 重要原话:“我们不再关心模型的解题过程是否和人类一模一样,我们只关心一件事:它最终的答案是否正确。” 16:26-16:34
精华收获
- SFT 像“教它学样子”,Self-Improve 像“让它学成效”。
- 验证器是新范式的地基:没有自动可验证,就没有闭环。
九、学习 vs 搜索:类人启发式与“2025=45²” 17:59-20:14
核心观点
- 重要原话:“值得注意的是,2025 是 45 的平方。” 19:21-19:24
个人感受作者对“类人启发式”的惊喜,来自它“不像程序”的那一面——这让“推理”第一次有了“味道”。
延伸思考这也解释了为何“过程外显”重要:它让你看到“洞察”本身,从而把“知识工程”转向“洞察工程”。
精华收获
- 学习能涌现“可迁移的启发式”,减少对“暴力搜索”的依赖。
- 搜索是工具,学习是底座。
十、推理时增强:自洽性(Self-Consistency)与聚合 21:06-24:08
核心观点
- 重要原话:“当在这个基础上再用上‘自洽性’技术后,准确率直接飙升到了 75%……PaLM 2 上甚至达到了 92%。” 23:27-23:36
个人感受作者把“集体智慧”引入个体模型:不是找一个最佳过程,而是汇集多个“足以通达”的路径,用投票消掉偶然性。
延伸思考自洽性的要点是“独立采样”,一次性生成多个答案“并不等价”。它也要求“答案形式唯一且可比较”,开放表达需用“通用自洽性”对齐语义。
精华收获
- 在推理时“跑多次+投票”,是极高性价比的稳健化手段。
- 目标函数的对齐(答案层面)远比“过程美感”重要。
十一、检索×推理:类比提示与 Step-Back(RAG 雏形) 24:47-26:28
核心观点
- 不必纠结“推理 vs 检索”的二元对立;把外部检索引入推理链,可显著提升结果。
深度阐述作者展示两个轻巧“检索诱发”的提示:
- 类比推理:先让模型“回忆一个相关问题再解答”,模型会“自检索”出“平面两点距离公式”,继而顺利解几何面积;
- Step-Back:先“退一步”总结解决这类问题所需的基本原理,再回到具体题目。
它们的思想都与 RAG 一致:用外部/显式知识补足内部表征,并把知识摆到“思考过程”的关键节点。作者强调,作为从业者,“只关心性能”,不要在“是不是检索”上对立。
- 重要原话:“把检索和推理结合起来,效果就是更好。” 25:09-25:10
个人感受作者的务实态度明确:用什么不重要,“更好的答案与更稳的过程”才重要。
延伸思考RAG 的未来不是“附加说明书”,而是“过程节点处的知识注入”,它应参与到“中间步骤”的调度中。
精华收获
- 把“知识引入”嵌进推理链本身,而非仅做“附注”。
- 类比与 Step-Back 是低门槛“检索×推理”的两把快刀。
十二、四条黄金法则与“验证器难题” 26:37-28:09
核心观点
- 四条法则:有推理优于无推理;强化学习微调优于 SFT;聚合多个答案优于单次生成;检索+推理优于纯推理。最大瓶颈:大多数现实任务“不可自动验证”。
- 重要原话:“任务的答案是可以被自动验证的……在现实世界中,大量更有价值的任务并没有这样的‘验证器’。” 27:30-27:40
个人感受作者的“务虚与务实”在此合流:既给出法则,又直指“验证器稀缺”的现实难题。
延伸思考没有现成验证器,就需要“代理指标与多观测信号”的组合评估,或“人机共评”的半自动循环;这会成为新一代产品与研究的交叉地带。
精华收获
- 法则可落地,难点在验证;验证器设计将成为“AI 产品力”的核心学问。
- 把“奖励定义权”握在手里,你才真正“定义了智能”。
十三、尾声:方法论的回归与升级 28:23-29:05
核心观点
- 真相往往更简单:思维链、自洽性、RL 微调的本质,都是“回到机器学习最本源的原理”。
深度阐述作者引用费曼“真相最终总是比你想象的要简单”,呼应全片:定义目标(答案正确)、计算梯度、反向传播,把“过程外显+路径筛选+多次聚合+知识注入”系统化,推理就不再神秘。我们穿过术语与热点,发现能改变一切的,往往是“把问题说清楚”的朴素道理。
- 重要原话:“本质上就是三件事:定义你的目标(Metric)、计算梯度(Gradient)、然后反向传播(Back Propagation)。” 16:56-17:01
个人感受作者的基调落在“可复制的清晰”上:以工程的方法拥抱“推理”。
精华收获
- 把“思考过程”建成工程系统,推理就能稳、能审、能演进。
- 最好的“超越”,常来自“回到根本”。
聊天讨论群,微信群二维码(如果进不了,看频道首页,可加个人微信gxjdian入群)

空空如也
暂无小宇宙热门评论