野格知识贩子 - 特斯拉前AI主管卡帕西最新演讲：软件行业巨变，洞察LLM与AI Agent - EarsOnMe

主播

MockingJ_XKo 1 档播客

节目简介

来源：小宇宙

特斯拉前AI部门主管安德烈·卡帕西（Andrej Karpathy）在Y Combinator的最新演讲中，深入探讨了AI时代软件行业的范式变革、大语言模型的本质理解以及他对AI Agent的看法。

以下是对其分享内容的详细总结：

1. AI 时代软件行业的范式变革

卡帕西指出，软件在经历了70年相对稳定后，在近几年内发生了两次根本性的变革，现在正经历第三次。他将软件发展分为以下三个范式：

软件1.0：这是传统的软件开发方式，即人类直接编写计算机代码，例如C++代码。

软件2.0：主要指神经网络，特别是神经网络的权重。这些权重并非直接编写，而是通过调整数据集并运行优化器来创建的。他将Hugging Face类比为软件2.0领域的GitHub，用于存储和可视化这些“代码”。卡帕西以特斯拉的Autopilot为例，说明了软件2.0（神经网络）如何“吃掉”并取代了大量原有的软件1.0（C++代码）功能。他观察到，随着Autopilot能力的提升，神经网络在功能和规模上都不断增长，同时许多原先用C++编写的功能被迁移到了神经网络中，从而删除了大量的软件1.0代码。

软件3.0：他认为这是一个全新的、独特的范式，随着大型语言模型（LLMs）变得可编程而出现。在软件3.0中，提示词（prompts）成为了编程LLMs的“程序”，而这些提示词通常是用英语编写的，这使其成为一种非常有趣的“编程语言”。

卡帕西强调，目前我们正处于一个拥有三种完全不同的编程范式的时代，对于即将进入软件行业的专业人士来说，精通这三种范式至关重要，因为它们各有优缺点，需要根据功能需求灵活选择使用。

2. 大语言模型的本质理解

卡帕西对LLMs的本质进行了深入的类比和分析，将其视为一种新型的“计算机”：

类比与功能：“新电力”与“工厂”（Fabs）：他引用吴恩达（Andrew Ng）的话，将AI比作“新电力”，认为LLMs具有公共事业（utility）的特性。LLM实验室投入大量资本训练模型（类似于建设电网），并通过API提供服务（按量计费），用户对其有低延迟、高可用、一致性质量等需求。同时，LLMs也具有“工厂”的特性，因为构建它们需要巨大的资本投入和快速发展的技术树。

“操作系统”：卡帕西认为，LLMs最强的类比是操作系统。它们不再是简单的商品，而是日益复杂的软件生态系统。他将LLMs比作CPU，上下文窗口比作内存，LLM负责协调内存和计算来解决问题。他指出，目前LLM市场类似操作系统市场，有少数闭源提供商（如Windows、Mac OS）和开源替代品（如Llama生态系统）。

1960年代的计算：他认为LLM计算目前仍然非常昂贵且集中在云端，通过“分时”（time sharing）方式提供服务，这与1960年代大型计算机的运作方式非常相似。他甚至认为，直接与ChatGPT等LLM进行文本交互，就像是在通过终端与操作系统对话，而一个通用的图形用户界面（GUI）尚未被发明。

技术扩散方向的反转：与传统技术（如电力、计算机、互联网）通常由政府和企业率先采用，然后才扩散到消费者不同，LLMs似乎颠倒了这一方向。他观察到，消费者（如使用ChatGPT解决日常问题）在使用LLMs方面走在了政府和企业的前面。

“心理”与认知特性：人类精神的随机模拟：卡帕西将LLMs描述为“人类精神的随机模拟”（stochastic simulations of people spirits），它们是通过在海量互联网文本上训练得到的。

超人能力：LLMs具备超人的百科全书式知识和记忆能力，能够记住比任何个体人类都多的信息，这类似于电影《雨人》中拥有超强记忆力的自闭症患者。

认知缺陷：幻觉（Hallucinations）：LLMs会编造信息，并且缺乏足够的自我知识。

锯齿状智能（Jagged Intelligence）：它们在某些问题解决领域表现超人，但在另一些领域会犯人类不会犯的低级错误。

顺行性遗忘症（Anterograde Amnesia）：LLMs不会原生学习和巩固长期知识。每次交互后，上下文窗口会被清除，这类似于电影《记忆碎片》和《初恋50次》中主人公的记忆缺失问题。

易受攻击：LLMs容易受提示注入攻击（prompt injection risks），可能泄露数据，具有一定的“轻信”性。

3. AI Agent 的看法

卡帕西对AI Agent（代理）的未来持谨慎乐观态度，并提出了构建部分自治应用程序（Partial Autonomy Apps）和相关基础设施的见解：

部分自治应用程序（Partial Autonomy Apps）的机会：他认为未来的软件将普遍具有部分自治性，例如Cursor（一款AI编程助手）就是LLM应用的优秀早期范例。

LLM应用特性：上下文管理：LLM应用能够处理大量上下文信息。

多LLM协调：能在后台协调调用多个LLM模型完成任务。

应用特定GUI的重要性：GUI对于LLM应用至关重要，因为它允许人类更快、更直观地审计和验证AI生成的内容，利用人类的视觉处理能力，而不是仅仅依赖文本交互。

自治滑块（Autonomy Slider）：用户可以根据任务复杂性调整AI的自治程度，从简单的文本补全到完全自主的代理操作，例如Cursor和Perplexity都提供了这种功能。

人机协作与“控制AI”：他强调AI通常负责生成，而人类负责验证。关键在于加快“生成-验证”循环，并“将AI拴在链条上”（keep the AI on the leash），避免其过度反应或产生难以审计的巨大输出。精确的提示词能提高验证成功率。

对未来AI代理的谨慎展望：他认为“2025年是代理之年”的说法过于乐观，更应视为“代理的十年”（decade of agents）。他强调人类仍需在循环中，谨慎推进。他借用“钢铁侠战衣”（Iron Man suit）的比喻，倡导构建增强型（augmentation）产品，而不是完全自主的机器人。产品应提供自治滑块，并不断优化人类的生成-验证循环。

为AI代理构建基础设施：“Vibe Coding”与全民编程：由于LLMs能理解自然语言，使得“Vibe Coding”（凭感觉编程）成为可能。任何人都能用英语编程，这大大降低了软件开发的门槛，卡帕西认为这是一种“通往软件开发的入门毒品”。

为代理优化数字基础设施：lm.txt文件：他建议未来可能需要类似robots.txt的lm.txt文件，以Markdown格式直接向LLMs描述网站信息，使其更容易理解，避免解析HTML的复杂性。

文档格式转换：大量的现有文档（如操作指南）需要从为人类设计的格式（带图片、点击指令）转换为LLMs更容易理解的格式（如Markdown），并用可执行的命令（如cURL）替换“点击”等动作，以便LLMs能直接操作。

LLM友好数据摄入工具：他提到了一些工具，能将GitHub仓库等复杂的人类界面转换为LLM友好的文本格式（如get-ingest工具，将多个文件内容合并为单一文本），甚至进行初步分析（如Deep Wiki），以便LLMs可以直接提问和处理。他认为，即使LLMs未来能模拟点击操作，为它们提供更直接、更便宜的访问方式仍然非常重要。

总结来说，卡帕西描绘了一个由人工智能特别是LLMs驱动的软件开发新时代，强调了新的编程范式、LLMs独特的“心理”特性、人机协作的重要性、以及为代理优化数字基础设施的必要性，并对未来的AI代理发展保持着务实和谨慎的展望。

特斯拉前AI主管卡帕西最新演讲：软件行业巨变，洞察LLM与AI Agent

1. AI 时代软件行业的范式变革

2. 大语言模型的本质理解

3. AI Agent 的看法

加入我们的 Discord

扫描微信二维码

播放列表