时长:
11分钟
播放:
95
发布:
4个月前
主播...
简介...
特斯拉前AI部门主管安德烈·卡帕西(Andrej Karpathy)在Y Combinator的最新演讲中,深入探讨了AI时代软件行业的范式变革、大语言模型的本质理解以及他对AI Agent的看法。
以下是对其分享内容的详细总结:
1. AI 时代软件行业的范式变革
卡帕西指出,软件在经历了70年相对稳定后,在近几年内发生了两次根本性的变革,现在正经历第三次。他将软件发展分为以下三个范式:
- 软件1.0:这是传统的软件开发方式,即人类直接编写计算机代码,例如C++代码。
- 软件2.0:主要指神经网络,特别是神经网络的权重。这些权重并非直接编写,而是通过调整数据集并运行优化器来创建的。他将Hugging Face类比为软件2.0领域的GitHub,用于存储和可视化这些“代码”。卡帕西以特斯拉的Autopilot为例,说明了软件2.0(神经网络)如何“吃掉”并取代了大量原有的软件1.0(C++代码)功能。他观察到,随着Autopilot能力的提升,神经网络在功能和规模上都不断增长,同时许多原先用C++编写的功能被迁移到了神经网络中,从而删除了大量的软件1.0代码。
- 软件3.0:他认为这是一个全新的、独特的范式,随着大型语言模型(LLMs)变得可编程而出现。在软件3.0中,提示词(prompts)成为了编程LLMs的“程序”,而这些提示词通常是用英语编写的,这使其成为一种非常有趣的“编程语言”。
卡帕西强调,目前我们正处于一个拥有三种完全不同的编程范式的时代,对于即将进入软件行业的专业人士来说,精通这三种范式至关重要,因为它们各有优缺点,需要根据功能需求灵活选择使用。
2. 大语言模型的本质理解
卡帕西对LLMs的本质进行了深入的类比和分析,将其视为一种新型的“计算机”:
- 类比与功能:“新电力”与“工厂”(Fabs):他引用吴恩达(Andrew Ng)的话,将AI比作“新电力”,认为LLMs具有公共事业(utility)的特性。LLM实验室投入大量资本训练模型(类似于建设电网),并通过API提供服务(按量计费),用户对其有低延迟、高可用、一致性质量等需求。同时,LLMs也具有“工厂”的特性,因为构建它们需要巨大的资本投入和快速发展的技术树。
“操作系统”:卡帕西认为,LLMs最强的类比是操作系统。它们不再是简单的商品,而是日益复杂的软件生态系统。他将LLMs比作CPU,上下文窗口比作内存,LLM负责协调内存和计算来解决问题。他指出,目前LLM市场类似操作系统市场,有少数闭源提供商(如Windows、Mac OS)和开源替代品(如Llama生态系统)。
1960年代的计算:他认为LLM计算目前仍然非常昂贵且集中在云端,通过“分时”(time sharing)方式提供服务,这与1960年代大型计算机的运作方式非常相似。他甚至认为,直接与ChatGPT等LLM进行文本交互,就像是在通过终端与操作系统对话,而一个通用的图形用户界面(GUI)尚未被发明。
- 技术扩散方向的反转:与传统技术(如电力、计算机、互联网)通常由政府和企业率先采用,然后才扩散到消费者不同,LLMs似乎颠倒了这一方向。他观察到,消费者(如使用ChatGPT解决日常问题)在使用LLMs方面走在了政府和企业的前面。
- “心理”与认知特性:人类精神的随机模拟:卡帕西将LLMs描述为“人类精神的随机模拟”(stochastic simulations of people spirits),它们是通过在海量互联网文本上训练得到的。
超人能力:LLMs具备超人的百科全书式知识和记忆能力,能够记住比任何个体人类都多的信息,这类似于电影《雨人》中拥有超强记忆力的自闭症患者。
认知缺陷:幻觉(Hallucinations):LLMs会编造信息,并且缺乏足够的自我知识。
锯齿状智能(Jagged Intelligence):它们在某些问题解决领域表现超人,但在另一些领域会犯人类不会犯的低级错误。
顺行性遗忘症(Anterograde Amnesia):LLMs不会原生学习和巩固长期知识。每次交互后,上下文窗口会被清除,这类似于电影《记忆碎片》和《初恋50次》中主人公的记忆缺失问题。
易受攻击:LLMs容易受提示注入攻击(prompt injection risks),可能泄露数据,具有一定的“轻信”性。
3. AI Agent 的看法
卡帕西对AI Agent(代理)的未来持谨慎乐观态度,并提出了构建部分自治应用程序(Partial Autonomy Apps)和相关基础设施的见解:
- 部分自治应用程序(Partial Autonomy Apps)的机会:他认为未来的软件将普遍具有部分自治性,例如Cursor(一款AI编程助手)就是LLM应用的优秀早期范例。
LLM应用特性:上下文管理:LLM应用能够处理大量上下文信息。
多LLM协调:能在后台协调调用多个LLM模型完成任务。
应用特定GUI的重要性:GUI对于LLM应用至关重要,因为它允许人类更快、更直观地审计和验证AI生成的内容,利用人类的视觉处理能力,而不是仅仅依赖文本交互。
自治滑块(Autonomy Slider):用户可以根据任务复杂性调整AI的自治程度,从简单的文本补全到完全自主的代理操作,例如Cursor和Perplexity都提供了这种功能。
人机协作与“控制AI”:他强调AI通常负责生成,而人类负责验证。关键在于加快“生成-验证”循环,并“将AI拴在链条上”(keep the AI on the leash),避免其过度反应或产生难以审计的巨大输出。精确的提示词能提高验证成功率。
对未来AI代理的谨慎展望:他认为“2025年是代理之年”的说法过于乐观,更应视为“代理的十年”(decade of agents)。他强调人类仍需在循环中,谨慎推进。他借用“钢铁侠战衣”(Iron Man suit)的比喻,倡导构建增强型(augmentation)产品,而不是完全自主的机器人。产品应提供自治滑块,并不断优化人类的生成-验证循环。
- 为AI代理构建基础设施:“Vibe Coding”与全民编程:由于LLMs能理解自然语言,使得“Vibe Coding”(凭感觉编程)成为可能。任何人都能用英语编程,这大大降低了软件开发的门槛,卡帕西认为这是一种“通往软件开发的入门毒品”。
为代理优化数字基础设施:lm.txt文件:他建议未来可能需要类似robots.txt的lm.txt文件,以Markdown格式直接向LLMs描述网站信息,使其更容易理解,避免解析HTML的复杂性。
文档格式转换:大量的现有文档(如操作指南)需要从为人类设计的格式(带图片、点击指令)转换为LLMs更容易理解的格式(如Markdown),并用可执行的命令(如cURL)替换“点击”等动作,以便LLMs能直接操作。
LLM友好数据摄入工具:他提到了一些工具,能将GitHub仓库等复杂的人类界面转换为LLM友好的文本格式(如get-ingest工具,将多个文件内容合并为单一文本),甚至进行初步分析(如Deep Wiki),以便LLMs可以直接提问和处理。他认为,即使LLMs未来能模拟点击操作,为它们提供更直接、更便宜的访问方式仍然非常重要。
总结来说,卡帕西描绘了一个由人工智能特别是LLMs驱动的软件开发新时代,强调了新的编程范式、LLMs独特的“心理”特性、人机协作的重要性、以及为代理优化数字基础设施的必要性,并对未来的AI代理发展保持着务实和谨慎的展望。
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论