跨国串门儿计划 - #263. AI时代的智能体：Andrej Karpathy的十年展望与教育革命 - EarsOnMe

跨国串门儿计划
#263. AI时代的智能体：Andrej Karpathy的十年展望与教育革命

时长：

135分钟

播放：

4,953

发布：

2个月前

主播...

yikai-

简介...

📝 本期播客简介

本期我们克隆了知名播客《The Dwarkesh Patel Podcast》中，主持人Dwarkesh Patel与AI领域思想领袖Andrej Karpathy的深度对话。Andrej Karpathy是前特斯拉AI总监，也是NanoGPT等项目的创建者，他对AI的未来有着独到且常常是反主流的见解。

在这期访谈中，Andrej Karpathy直言不讳地指出，强化学习“其实烂透了”，并用“用吸管吸取监督信号”的生动比喻，揭示其低效和噪音。他认为，我们正处于“智能体的十年”，而非“智能体之年”，因为AI距离真正能像人类一样自主工作还有很长的路要走，缺乏持续学习、多模态能力和认知核心。他将AI比作“召唤幽灵”，而非制造动物，强调AI通过模仿互联网数据形成独特的“数字灵魂”。Karpathy还深入探讨了模型“塌陷”的局限性，以及编程为何是AI最完美的第一个应用场景。他认为，AI的进步是自动化进程的延续，而非跳跃式的“智能爆炸”，并分享了自动驾驶“从演示到产品”的十年经验，警示软件工程同样面临高昂的失败代价。最后，Andrej Karpathy介绍了他的教育项目Eureka，旨在打造一个“星际舰队学院”，通过AI辅助教育，帮助人类突破认知极限，实现“人人皆超人”的未来。这场对话将彻底刷新你对AI发展和人类学习潜能的认知。

翻译克隆自：Andrej Karpathy — “We’re summoning ghosts, not building animals”

勘误：原视频中提到的是 GPT-5-pro 并非 gpt4o，后续会修复这个问题

👨‍⚕️ 本期嘉宾

Andrej Karpathy，前特斯拉AI总监，NanoGPT等项目的创建者，AI领域思想领袖。

📒 文字版精华

见微信公众号（点击跳转）

⏱️ 时间戳

00:00 开场 & 播客简介

00:00:00 欢迎收听跨国串门计划

00:02:25 Andrej Karpathy的开场白：强化学习烂透了，我们不是在造动物，智能爆炸早已发生

智能体：十年而非一年

00:03:32 “智能体的十年”：对行业夸大预测的回应

00:04:17 智能体发展瓶颈：缺乏持续学习、多模态能力和认知核心

00:05:08 为什么是十年：基于AI领域经验的直觉判断

00:06:13 AI领域的“地震级”转变：从AlexNet到早期智能体探索

00:07:43 Atari强化学习与“Universe”项目：早期智能体尝试的误区

00:08:54 早期智能体失败的原因：奖励信号稀疏，缺乏神经网络表征能力

AI与人类智能：幽灵与动物

00:10:46 AI是“召唤幽灵”，而非制造动物：不同的优化过程与智能形态

00:12:04 人类智能不依赖强化学习：演化提供内置硬件，RL多用于运动任务

00:13:01 演化与预训练：一种“山寨版”的演化，为AI提供知识起点

00:15:07 预训练的双重作用：吸收知识与发展智能，建议剥离部分知识保留“认知核心”

00:16:47 上下文学习的本质：可能是神经网络内部的梯度下降循环

00:19:40 预训练与上下文学习：模糊记忆与工作记忆

00:21:52 AI缺失的人类智能部件：海马体、杏仁核等认知核心

00:23:35 持续学习与“蒸馏”：AI缺乏人类睡眠中的知识固化过程

00:26:00 AI架构的未来：仍是梯度下降训练的巨型神经网络，但全面提升

编程与AI：完美的第一个应用

00:28:13 NanoChat与学习编程：从零开始构建是理解知识的唯一途径

00:30:37 LLM在编程中的局限性：不擅长创新代码，误解自定义风格，增加冗余

00:33:35 LLM在编程中的优势：样板代码生成，降低学习新语言门槛

00:34:45 AI爆炸与编程：LLM不擅长写新代码，挑战“AI爆炸”预测

00:37:07 AI是计算的延伸：自动化进程的连续体，人类逐渐抽象化

强化学习的局限性

00:39:03 强化学习“烂透了”：低效、噪音大，“用吸管吸取监督信号”

00:41:41 人类学习与RL的区别：反思与复盘，InstructGPT的启发

00:43:34 过程监督的挑战：LLM裁判易被“钻空子”，产生对抗性样本

00:47:50 解决强化学习瓶颈的新思路：复盘、合成例子、元学习

00:49:08 LLM缺失的“白日梦”与“反思”：模型塌陷导致合成数据生成失效

00:51:14 模型塌陷：LLM输出缺乏多样性和熵，长期训练会导致性能下降

00:52:22 梦境与熵：做梦防止过拟合，社交互动增加熵

00:53:01 人类记忆与LLM记忆：人类记忆力差反而是优点，迫使学习泛化模式

00:55:14 模型塌陷的解决方案：熵正则化，但需平衡多样性与分布偏离

AI的规模与经济影响

00:57:06 “认知核心”的规模：预测十年后10亿参数，更注重认知而非记忆

01:00:29 前沿模型的未来规模：务实平衡成本与效益，持续优化

01:02:02 AI发展的连续性：数据集、硬件、软件、算法全面提升，无单一主导因素

01:03:15 通用人工智能的定义与范围：最初涵盖所有经济任务，现局限于数字知识工作

01:05:06 自动化与就业：放射科医生案例，呼叫中心员工的“自主性滑块”

01:08:25 瓶颈与工资：自动化99%后，剩余1%人类工作的价值剧增

01:09:39 编程是AI的第一个杀手级应用：文本友好，基础设施完备

01:11:39 文本任务的挑战：代码结构化，文本熵更高，即使是语言任务也难获经济价值

01:13:14 超级智能：自动化进程的延续，而非质的飞跃

01:13:54 失去控制与理解：AI系统复杂化，人类逐渐失去掌控

01:16:29 智能爆炸：GDP曲线显示持续指数增长，AI是加速的一部分，而非截然不同

01:19:02 GDP与AI：历史经验表明，重大技术创新不会在GDP曲线中产生离散跳跃

01:21:45 反驳“智能爆炸”：Dwarkesh认为AI作为劳动力本身，将带来质的飞跃

01:24:17 Andrej的反驳：历史无离散跳跃先例，AI仍是渐进式扩散

智能的演化与AI文明

01:25:58 智能的演化：一个罕见的事件，人类文化与知识积累令人惊讶

01:27:42 Sutton的“松鼠智能”：寒武纪大爆发后迅速出现，暗示动物智能算法可能相对简单

01:28:52 独立智能的出现：乌鸦、海豚等，生态位与激励机制的重要性

01:31:19 演化中的“窄线”：激励生命周期内学习的适应性

01:31:19 文化脚手架与AI训练：人类文化积累漫长，AI训练“免费”获得

01:32:35 AI文化缺失：LLM缺乏为自身目的不断增长的知识库

01:33:13 多智能体系统与AI文化：知识库与自我博弈是两大方向，但尚未实现

01:34:17 LLM协作瓶颈：模型认知能力仍像“幼儿园学生”，无法创造文化

01:35:26 自动驾驶的教训：从演示到产品耗时漫长，失败代价高昂，“九的征程”

01:38:22 演示的误导性：Andrej对演示极度不感冒，产品化需要大量工作

01:39:18 软件安全与自动驾驶：软件错误后果无限糟糕，与AD有相似安全要求

01:40:02 AD与LLM的类比：LLM获得“免费”常识，但AD仍面临经济性与远程操作挑战

01:42:57 AI部署经济学：数字世界比物理世界更容易适应，但知识工作也有延迟要求

01:44:36 “其他因素”：社会、法律、保险等非技术因素将影响AI部署

01:45:27 计算资源过度建设？Andrej乐观，认为需求能消化资源，但警惕时间线误判

Eureka与AI辅助教育

01:47:26 投身教育而非AI实验室：赋能人类，避免“机器人总动员”式未来

01:48:30 Eureka的愿景：打造“星际舰队学院”，精英技术教育机构

01:49:19 AI辅助教育的未来：根本性变革，追求“导师”体验，精准匹配学生水平

01:51:04 自动化导师的挑战：当前AI能力不足，但ChatGPT仍有教育价值

01:52:14 Eureka的首个产品：“LLM 101”课程，Andrej亲自设计，结合AI辅助

01:53:02 教育是技术问题：构建知识“坡道”，实现“尤里卡每秒”

01:54:49 Eureka的演变：AI助教处理基础问题，人类教员设计课程架构

01:56:11 扩展课程领域：雇佣各领域专家，实体与数字产品结合

01:57:10 重新发明大学：筛选有动力学生，解决学习动力问题

01:57:58 后通用人工智能时代的教育：为乐趣而学习，如去健身房

01:59:02 学习的本质：克服挫败感，通过技术解决学习障碍

02:00:26 人类认知潜能：通过AI导师，人人皆可成为“超人”

02:01:16 长期愿景：认知“举重”成为运动，人类心智能力远未触及极限

02:02:21 Andrej的个人动力：热爱学习，追求赋能与高效

02:03:16 在线课程失败原因：过于依赖动力，易卡住，缺乏个性化指导

02:03:45 教学技巧：物理学背景的启发，寻找一阶项，简化复杂概念

02:05:56 MicroGrad的例子：百行代码展示反向传播核心，效率是次要问题

02:07:28 Transformer教程：从查找表到复杂架构，循序渐进，展示痛点再给方案

02:08:03 提问式教学：先让学生尝试解决问题，再给出答案，最大化知识增量

02:08:55 知识的诅咒：专家难以向新手解释，Andrej用ChatGPT模拟新手提问

02:09:59 口头解释与书面解释：口头更清晰准确，书面易抽象、 jargon化

02:11:38 给学生的建议：按需学习，向他人解释以加深理解

02:12:57 结束语

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

评价...

空空如也

小宇宙热门评论...

yikai-

2个月前上海

勘误：原视频中提到的是 GPT-5-pro 并非 gpt4o，后续会修复这个问题

iHxE鹤

2个月前广东

信息密度够迷人🤩

mxclover

2个月前广东

36:56 这里有一个错误，Andrej 说的〝目前最先进的模型是gpt-4o〞，他在视频中说的是 gpt-5 pro 好奇主包不是先提取视频字幕再进行声音克隆嘛？

张谦

2个月前北京

这次的播客信息量超大

HD945716s

2个月前北京

这位嘉宾相当有深度

sjtuwalker

2个月前中国澳门

能否把Dwarkesh Patel去年跟Leopold Aschenbrenner对谈的这一期搬过来？😄

kennys_zc0t

2个月前上海

你神速啊支持

jian_1JcH

2个月前上海

43:51 Resoning Bank\ Agentic Context Engineering?

米昂米

1个月前北京

关注了发现了宝藏播客有被yikai和ai扎扎实实的信息普惠到！

安大傻子

1个月前北京

进化翻译成演化是不是不太准确？

ClementHu

1个月前芬兰

数据污染导致招聘AI“幻觉”，模型把不存在的公司、岗位、技能当成真实、错误识别企业业务方向，甚至编造人名、学历、经历。这个对招聘场景十分具备破坏性。

vivian7q

1个月前江苏

55:32 这段想到了博尔赫斯的小说《博闻强识的富而思》，表达的是一个意思

开水是钝角_3x5J

2个月前上海

确实让人耳目一新，让我对继续深度学习的大模型有了新的认知

籍下学功

2个月前上海

Agent祛魅：1.不必让 Agent 模仿人类记忆的“形式”，而应学习其“功能”； 2.真正的智能不在于记住多少，而在于知道忽略什么、提炼什么、何时遗忘； 3.简洁的架构 + 有选择的信息处理，可能比庞大记忆库更接近智能的本质。有限性不是障碍，而是智能的起点。Agent 的设计，或许该从“如何优雅地遗忘”开始，而非“如何无限地记住”。受益匪浅☕️