AI前沿 - 推理的本质|DennyZhou斯坦福讲座|思考的必要性|思维链提示 - EarsOnMe

主播...

简介...

本片以 DeepMind 首席科学家 Denny Zhou 在 Stanford CS25 的公开讲座为蓝本，系统回顾从“把推理当作中间步骤”这一工程化定义出发，如何依次走过思维链（CoT）、思维链解码、置信度信号、提示工程（few-shot CoT 与 “Let’s think step-by-step”）、监督微调（SFT）的瓶颈，再到“验证器+自我进化”（Self-Improve/STaR）与强化学习微调的范式升级，并在推理时用“自洽性（Self-Consistency）”与“检索×推理（RAG 雏形）”进一步提升稳健性与可用性；最后总结“四条黄金法则”，指出当下最大瓶颈是“自动可验证的任务稀缺”。

开篇引入

每一个经常使用大模型的人，都体验过那种“过山车式”的落差：同样是复杂问题，模型有时能娓娓道来、条分缕析，让人恍惚看见屏幕后面有个会思考的“人”；但稍一变体，它又会错得离谱，仿佛只是在模仿网上的套路。这种悖论并非玄学，而是方法。作者以 Denny Zhou 的斯坦福讲座为线索，把“推理”的哲学争论拉回到可操作的工程框架：推理，就是输入与答案之间“中间步骤”的生成与利用。围绕这一定义，视频把 CoT、SFT、Self-Improve、验证器、强化学习微调，以及推理时的自洽性与检索增强，整合成一条清晰、可落地、能复现的演进路径。读完本文，你不会再把“推理”当作迷雾，而是能拿起具体的抓手：怎样引导模型思考、如何验证答案、何时聚合多次输出、在什么地方接入检索，乃至该如何定义“对”的标准。

一、从悖论体验到核心谜题 00:00-02:09

核心观点

大模型的“会推理”与“像复读机”并存，症结不在“它有没有智能”，而在我们对“推理”的定义与调用方式。

重要原话：“关于模型到底会不会推理的哲学辩论，他从不参加……在他的团队里，‘推理’有一个非常具体的含义：输入和输出之间的中间步骤。” 02:26-02:48

个人感受作者有意识地“降维打击”那种宏大争论：把问题落到“怎么做”，更像一位工程型观察者的选择。

延伸思考一旦接受“推理＝中间步骤”，你的关注点就会转向：如何诱导它生成更好的步骤、如何筛选正确步骤、如何在推理时聚合、如何把外部知识接进来。后面的全部章节，都是围绕这四问展开。

精华收获

争论“有没有智能”不如问“中间步骤怎么来、怎么用”。

概念工程化，是把“神秘能力”转成“可优化流程”的第一步。

二、推理的工程定义：中间步骤即能力 02:12-03:45

核心观点

“中间步骤”的存在可被设计任务直接检验；它让“思考”变成可观测、可度量、可训练的对象。

重要原话：“将 l 和 e 拼接起来，得到 le。” 03:33-03:37

个人感受作者不断提醒“不要被拟人化迷惑”，这是一种保持方法论清醒的克制。

延伸思考“末尾字母拼接”作为“首字母拼接”的对照实验，揭示了“数据记忆”与“过程推理”的边界：前者在预训练中见得太多，后者才逼近“逻辑操作”的本质。

精华收获

推理的“过程可视化”让我们可以检验、比较、调度不同的解题路径。

任务设计是检验“过程是否存在”的关键手段。

三、祛魅范式：从“首字母”到“末尾字母” 03:45-04:40

核心观点

好的任务设定能排除“记忆幻觉”，检出真正的“过程能力”。

重要原话：“于是他换成了‘末尾字母拼接’，结果当时所有的模型都失败了。” 04:19-04:24

个人感受作者对“巧妙任务设计”的欣赏溢于言表——它用最小代价，澄清了最核心的误解。

延伸思考很多“看上去会”的能力，可能都是“频次陷阱”。任何能力评测，都要小心“预训练数据泄漏”的伪像。

精华收获

通过任务切换，区分“记忆频次”与“过程推理”。

能稳定外显中间步骤，才是可用的推理起点。

四、理论基座：布尔电路与 O(T) 中间步骤 04:38-06:01

核心观点

理论上，常数大小的 Transformer 通过生成足够长的中间步骤，可以解决“大小为 T 的布尔电路所能解决的问题”。

重要原话：“让模型‘思考’，生成中间步骤，不是可有可无的选项，而是在计算原理上解锁复杂问题能力的一把‘金钥匙’。” 05:49-05:54

个人感受作者在此明确“从追求答案转向追求过程”的范式变更，这种“目标函数”的更换，决定了后续所有技术选择。

延伸思考外显步骤不仅是“模型友好”，更是“系统工程友好”：你可以存档、审计、聚合、比较、路由，构成“人机共解”的基础设施。

精华收获

过程外显让有限容量的模型，具备“线性展开复杂计算”的潜力。

“答案导向”变为“过程导向”，是推理范式的分水岭。

五、解码即能力：从贪婪解码到思维链解码 06:01-08:46

核心观点

预训练模型“已准备好推理”，关键在“换一种解码方式”去探索隐藏的正确路径。

重要原话：“正确的推理路径，其实一直都存在于模型的输出空间里……默认的贪婪解码因为只看了眼前最宽的路，所以错过了它们。” 08:16-08:27

精华收获

解码策略≠无关紧要；选择何种“走路方式”，决定你是否能“走到对的地方”。

CoT 解码把“能力发现”变成“路径发掘”。

六、答案置信度：从“感觉对”到“可度量的笃定” 08:48-09:47

核心观点

对含正确思维链的回答，模型在“最终答案 token”上的内部置信度显著更高，可作为筛选信号。

精华收获

中间步骤要配“答案层置信度”一起用；“又长又错”的推理链，并不罕见。

筛选器的“硬信号”，比“好看”的过程更可靠。

七、提示工程两条路：Few-shot CoT 与“Let’s think step-by-step” 10:07-12:09

核心观点

Few-shot CoT 用示例“重塑分布”，把“带过程的好答案”推到解码前列；“Let’s think step-by-step”则以零样本方式“通用唤醒”推理。

重要原话：

“让我们一步步思考（Let’s think step-by-step）。” 11:23-11:28“结果，他震惊地发现，它真的有效！” 11:46-11:49

个人感受作者坦率呈现“从质疑到服气”的过程：对方法保持怀疑，同时愿意用实验说话。

延伸思考零样本提示的成功，说明“会思考”并非“塞进模型的插件”，而更像“分布中已有的模式被轻唤醒”。

精华收获

few-shot 是“强塑形”，step-by-step 是“轻唤醒”；两者可视情况取舍。

提示工程的本质，是“分布重排”。

八、SFT 的瓶颈与“验证器＋自我进化（Self-Improve/STaR）” 12:30-17:33

核心观点

重要原话：“错误，出在‘人’身上。” 14:24-14:26

重要原话：“我们不再关心模型的解题过程是否和人类一模一样，我们只关心一件事：它最终的答案是否正确。” 16:26-16:34

精华收获

SFT 像“教它学样子”，Self-Improve 像“让它学成效”。

验证器是新范式的地基：没有自动可验证，就没有闭环。

九、学习 vs 搜索：类人启发式与“2025=45²” 17:59-20:14

核心观点

重要原话：“值得注意的是，2025 是 45 的平方。” 19:21-19:24

个人感受作者对“类人启发式”的惊喜，来自它“不像程序”的那一面——这让“推理”第一次有了“味道”。

延伸思考这也解释了为何“过程外显”重要：它让你看到“洞察”本身，从而把“知识工程”转向“洞察工程”。

精华收获

学习能涌现“可迁移的启发式”，减少对“暴力搜索”的依赖。

搜索是工具，学习是底座。

十、推理时增强：自洽性（Self-Consistency）与聚合 21:06-24:08

核心观点

重要原话：“当在这个基础上再用上‘自洽性’技术后，准确率直接飙升到了 75%……PaLM 2 上甚至达到了 92%。” 23:27-23:36

个人感受作者把“集体智慧”引入个体模型：不是找一个最佳过程，而是汇集多个“足以通达”的路径，用投票消掉偶然性。

延伸思考自洽性的要点是“独立采样”，一次性生成多个答案“并不等价”。它也要求“答案形式唯一且可比较”，开放表达需用“通用自洽性”对齐语义。

精华收获

在推理时“跑多次＋投票”，是极高性价比的稳健化手段。

目标函数的对齐（答案层面）远比“过程美感”重要。

十一、检索×推理：类比提示与 Step-Back（RAG 雏形） 24:47-26:28

核心观点

不必纠结“推理 vs 检索”的二元对立；把外部检索引入推理链，可显著提升结果。

深度阐述作者展示两个轻巧“检索诱发”的提示：

类比推理：先让模型“回忆一个相关问题再解答”，模型会“自检索”出“平面两点距离公式”，继而顺利解几何面积；

Step-Back：先“退一步”总结解决这类问题所需的基本原理，再回到具体题目。

它们的思想都与 RAG 一致：用外部/显式知识补足内部表征，并把知识摆到“思考过程”的关键节点。作者强调，作为从业者，“只关心性能”，不要在“是不是检索”上对立。

重要原话：“把检索和推理结合起来，效果就是更好。” 25:09-25:10

个人感受作者的务实态度明确：用什么不重要，“更好的答案与更稳的过程”才重要。

延伸思考RAG 的未来不是“附加说明书”，而是“过程节点处的知识注入”，它应参与到“中间步骤”的调度中。

精华收获

把“知识引入”嵌进推理链本身，而非仅做“附注”。

类比与 Step-Back 是低门槛“检索×推理”的两把快刀。

十二、四条黄金法则与“验证器难题” 26:37-28:09

核心观点

四条法则：有推理优于无推理；强化学习微调优于 SFT；聚合多个答案优于单次生成；检索＋推理优于纯推理。最大瓶颈：大多数现实任务“不可自动验证”。

重要原话：“任务的答案是可以被自动验证的……在现实世界中，大量更有价值的任务并没有这样的‘验证器’。” 27:30-27:40

个人感受作者的“务虚与务实”在此合流：既给出法则，又直指“验证器稀缺”的现实难题。

延伸思考没有现成验证器，就需要“代理指标与多观测信号”的组合评估，或“人机共评”的半自动循环；这会成为新一代产品与研究的交叉地带。

精华收获

法则可落地，难点在验证；验证器设计将成为“AI 产品力”的核心学问。

把“奖励定义权”握在手里，你才真正“定义了智能”。

十三、尾声：方法论的回归与升级 28:23-29:05

核心观点

真相往往更简单：思维链、自洽性、RL 微调的本质，都是“回到机器学习最本源的原理”。

深度阐述作者引用费曼“真相最终总是比你想象的要简单”，呼应全片：定义目标（答案正确）、计算梯度、反向传播，把“过程外显＋路径筛选＋多次聚合＋知识注入”系统化，推理就不再神秘。我们穿过术语与热点，发现能改变一切的，往往是“把问题说清楚”的朴素道理。

重要原话：“本质上就是三件事：定义你的目标（Metric）、计算梯度（Gradient）、然后反向传播（Back Propagation）。” 16:56-17:01

个人感受作者的基调落在“可复制的清晰”上：以工程的方法拥抱“推理”。

精华收获

把“思考过程”建成工程系统，推理就能稳、能审、能演进。

最好的“超越”，常来自“回到根本”。

聊天讨论群，微信群二维码（如果进不了，看频道首页，可加个人微信gxjdian入群）

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表