Google旧闻重温:《我们没有护城河,OpenAI 也没有》

AI前沿

最近 DeepSeek 公布了其全新开源模型 R1。据社区最新测评结果显示,R1 的整体性能已非常接近 OpenAI 最新发布的 o1 模型。短短数月前,许多业界专家还认为要想撼动 OpenAI 的领先地位并不容易,但这一进展表明,开源创新的活力正持续爆发,带来了速度惊人的进步。 这让人联想到不久前流传于业界的一份 Google 内部文件——《我们没有护城河,OpenAI 也没有》,其中指出开源社区在大语言模型上的迭代与竞争力不断攀升,甚至有可能颠覆当前闭源模型的领先地位。DeepSeek 这次的发布,正是又一个有力佐证:通过轻量化微调、聚焦高质量数据以及快速版本迭代,小型团队也能迅速推出性能出众的模型。 对开发者和研究者而言,R1 的开源意味着可以自由掌握和调试模型,随时挖掘更多场景价值。同时,对于更广泛的行业应用,无论是对话机器人、自动文案生成,还是科研辅助,越来越多的开源选择都在加速降低门槛。下一步,或许将出现更多针对垂直领域和特殊需求的个性化调优模型,为用户提供与巨头竞争的替代方案。 从这一系列现象不难看出,未来人工智能领域的版图势必将从“单点领先”转向“群体协同”,创新也会来得更为迅速。DeepSeek 的 R1 与 OpenAI 的 o1 如今的“平分秋色”,只是一个起点——谁能率先拥抱开源生态、加快迭代脚步,就将更有机会在这场竞争里赢得用户和口碑。 Google “我们没有护城河,OpenAI 也没有” 泄露的内部 Google 文件声称:开源 AI 将在竞争中超越 Google 和 OpenAI 以下文字是最近泄露的一份文件,由匿名人士在一个公共 Discord 服务器上分享,并已获得其授权重新发布。它来自 Google 内部的一位研究人员。我们已核实其真实性。文件的唯一改动之处在于格式和移除了指向内部网页的链接。该文件仅代表这位 Google 员工的个人观点,而非整个公司的立场。我们并不认同以下内容,亦有其他研究人员对其提出异议。我们会在另外的文章中向订阅者阐述我们自己的观点。此处仅作为分享这份文件的载体,因为它提出了一些非常值得关注的问题。 我们没有护城河 OpenAI 也没有 我们一直在紧盯 OpenAI 的动向。谁会率先达到下一个里程碑?下一步行动会是什么? 但有一个令人不安的事实是:我们并没有站在赢得这场军备竞赛的位置,OpenAI 也没有。 当我们在彼此争夺的时候,第三股力量已经悄悄把我们的午餐吃掉了。 我说的,当然是开源社区。直白地说,他们已经把我们远远甩在身后。我们认为的“重大未解决问题”,他们如今已经解决并投入使用。 仅举几例: * 能在手机上运行的大语言模型(LLM): 有人在 Pixel 6 上运行了基础模型,速度达 5 个 token/秒。 * 可扩展的个人 AI: 只需要一个晚上、用笔记本就能微调一个个性化 AI。 * 负责任的发布(Responsible Release): 这一点并非被“解决”,而是被“架空”了。网上有整整一批艺术模型网站,它们对输出几乎没有任何限制,而文本方面也已相距不远。 * 多模态: 当前多模态 ScienceQA 的最新 SOTA 模型仅用一小时就完成训练。 我们的模型虽然在质量上依然略有优势,但差距正在以惊人的速度缩小。开源模型的速度更快,可定制性更强,更注重隐私,并且在同等规模下功能更全面。他们用区区 100 美元和 130 亿参数就能实现我们用一千万美元、5400 亿参数都觉得棘手的事情,而且他们只需要几周时间,而非几个月。这对我们有着深远的影响: * 我们没有“独门秘方”。 我们最好的希望是学习并与 Google 外部的创新者合作。我们应当优先考虑为第三方集成提供支持。 * 当免费且无限制的可比质量模型出现时,人们不会愿意付费使用受限制的模型。 我们要认真思考自己的价值增值点究竟在哪里。 * 巨型模型反而拖慢了我们的脚步。 从长远来看,最好的模型应该是那些能被快速迭代的模型。既然我们已看到 200 亿参数以下的模型也能有如此潜力,那么就应当优先考虑这类小规模模型,而不是仅把它们当作辅助思路。 事情的来龙去脉 3 月初,开源社区第一次接触到了一个真正有能力的基础模型——Meta 的 LLaMA,因为该模型意外泄露给公众。最初它没有任何指令或对话微调,也没有经过强化学习反馈(RLHF)。尽管如此,社区立刻意识到这个模型所蕴含的意义。 接着便涌现了令人目不暇接的创新,重大进展往往只相隔几天(参见后文的“时间线”部分了解更多详情)。转眼只过了一个多月,市面上就出现了带指令微调、量化、质量提升、人工评测、多模态、RLHF等等的变体,而且许多成果是相互构建和叠加的。 最重要的是,他们已经解决了可扩展性问题,使得任何人都可以自己动手尝试。如今许多新想法都来自普通个体。训练和实验的门槛从需要一家主要研究机构的资源,降到了只需要一个人、一晚上加上一台高性能笔记本电脑。 为什么我们本该预见到这一切 从很多方面来看,这件事并不让人意外。就在开源 LLM 迎来当前热潮之前,开源图像生成领域也经历了一场革新。社区也敏锐地发现了两者的相似之处,很多人称这次是 LLM 领域的“Stable Diffusion 时刻”。 在这两种情况下,低成本的公众参与都得益于一种极其廉价的微调方法——LoRA(低秩适配),再加上在规模上的重大突破(图像合成用的是潜在扩散(latent diffusion),而 LLM 这边是Chinchilla)。同样,获得一个足够高质量的开源模型后,全世界的个人和机构纷纷在此基础上进行创新,迭代速度远超大型企业。 这些贡献在图像生成领域起到了决定性作用,让 Stable Diffusion 与 DALL·E 走上了截然不同的道路。拥有一个开源模型促成了产品集成、市场平台、用户界面和相关创新,而这些并没有发生在 DALL·E 上。 其影响力是显而易见的:Stable Diffusion 在文化影响力方面迅速超越了OpenAI 的解决方案,DALL·E 逐渐变得无关紧要。LLM 是否会重蹈这个覆辙还需观望,但两者在总体的结构和情况上非常相似。 我们忽视了什么 推动开源取得近期成功的技术创新,恰恰也能直接解决我们仍在困扰的问题。关注他们的工作或许能让我们避免重复造轮子。 LoRA 是一种极其强大的技术,我们可能需要更加重视 LoRA 通过将模型更新表示为低秩分解,将更新矩阵的大小最多缩小数千倍。这让模型的微调只需要极少的成本和时间。能在消费者级硬件上,用几小时就完成对语言模型的个性化微调,这是一件大事,尤其是对于我们那些想要在近乎实时的环境中整合新鲜、多元知识的愿景。我们在 Google 内部对这项技术的利用远远不足,尽管它对一些最雄心勃勃的项目有直接影响。 从头训练模型是最困难的道路 LoRA 之所以高效,部分原因就在于它——和其他微调方式类似——是“可叠加”的。像指令微调这样的改进可以先行完成,然后再让其他贡献者在其基础上添加对话、推理或工具使用等功能。虽然单个微调是低秩的,但它们的总和不一定是低秩的,这意味着全秩的更新会随时间在模型中不断累加。 也就是说,随着不断出现更新、更好的数据集和任务,模型能以低廉的代价不断维持“现代化”,而无需为每次迭代都承担完整训练的成本。 相比之下,每次从零开始训练巨型模型不仅会丢弃预训练成果,也会丢弃在此基础上所积累的一切迭代改进。在开源世界里,这些改进用不了多久就会占据主导,使得完全重头训练的成本变得极为高昂。 我们应当认真思考是否真的为每个新应用或新想法都要重新训练一个全新模型。如果我们确实有重大结构改进,导致无法直接重用模型权重,那么应该投资于更激进的蒸馏方法,以尽可能保留上一代模型的能力。 长期来看,如果我们能更快地迭代小模型,大模型未必更强 对于最受欢迎的模型规模(通常在十几亿到几十亿参数),LoRA 更新的成本大约在 100 美元左右。这意味着几乎任何有想法的人都能产生自己的微调版本并进行分发。通常在一天内即可完成训练。以这样的速度,不久之后,一系列小步迭代的累积效应就会弥补起初规模上的劣势。实际上,就工程师人力投入来看,这些小模型的迭代速度远远超过我们对超大模型的迭代速度,而且它们中的佼佼者与 ChatGPT 已经难分伯仲。 一味地维护全球最大规模的模型,实际上可能让我们处于不利地位。 数据质量比数据规模更重要 许多开源项目使用小而高质量的数据集进行训练,从而大大节省了时间。这表明在数据扩展规律上还有一定的灵活性。这样的数据集呼应了《Data Doesn’t Do What You Think》中的思路,现已成为 Google 之外训练的常见手段。这些数据集通常通过合成方法(例如筛选现有模型输出中的最佳响应)或整合其他项目的资源来构建,而这些方式在 Google 内部还没有占据主流。 值得庆幸的是,这些高质量数据集都是开源的,我们可以免费使用。 与开源正面竞争是必然的败局 最近的进展对我们的商业战略有着直接且立竿见影的影响。如果能免费获得质量可比、且没有使用限制的模型,谁还会愿意付费使用 Google 的受限产品? 我们也不应该奢望能够迎头赶上。现代互联网建立在开源之上,这是有原因的。开源具备一些我们无法复制的重大优势。 个人与公司相比,不受版权许可的限制 许多创新是在使用 Meta 泄露出来的模型权重的基础上完成的。虽然随着真正开源的模型不断变得更好,这一点会发生改变,但关键是社区无需等待。个人在“个人使用”这一法律框架以及实际无法追踪处罚的背景下,可以在第一时间获取这些前沿技术。 当自己就是用户,就能更好地理解需求 回顾在图像生成领域出现的那些用户自制模型,从动漫生成器到 HDR 风景,无不展现出惊人的创意。而这些模型正是由对各自领域有深入理解与热爱的人打造的,我们很难与他们在特定细分领域所积累的专业性与同理心相提并论。 拥抱生态系统:让开源为我们所用 矛盾的是,这次所有动向中,唯一明确的受益者就是 Meta。因为被泄露的权重是他们的,他们实际上获得了全球范围内免费的人力资源。大部分开源创新都基于他们的体系结构,而这并不妨碍他们将这些成果直接纳入自己的产品。 拥有一个生态系统的价值是难以估量的。 Google 也曾经通过类似的开源策略在 Chrome 和 Android 上尝到过甜头。通过拥有进行创新的平台,Google 巩固了自己作为行业“思想领袖”和“方向制定者”的地位,并能在超越自身的更宏大议题上掌握话语权。 我们对模型的控制越严格,开源替代方案就越有吸引力。 Google 和 OpenAI 都出于防御性考虑,倾向于以严密可控的方式发布模型。但这种控制其实只是空想。任何想要用 LLM 做“未授权用途”的人,大可以直接使用那些完全开源的模型。 Google 应当成为开源社区的领导者,通过协作(而不是忽视)来参与到更广泛的对话里。这可能需要采取一些让人不安的举措,比如公布小型通用语言模型(ULM)变体的权重。这必然意味着放弃对我们模型的部分控制。但这个妥协是不可避免的。我们无法一边带动创新,一边又完全操纵创新。 尾声:那 OpenAI 呢? 对于 OpenAI 目前的闭源策略,或许有人会觉得这对他们并不公平——为什么我们要分享,而他们却不分享?但事实是,我们已经通过人才流失的方式在“分享”一切了。只要我们无法阻止核心研究人员被挖走,保密就形同虚设。 更关键的是,OpenAI 并不重要。 他们在与开源的博弈中犯下了和我们相同的错误,他们能否保持领先地位也面临质疑。开源替代方案迟早会赶超他们,除非他们改变这种立场。在这方面,至少我们可以先行一步。 聊天讨论群,微信群二维码

14分钟
99+
9个月前

AI教育第一人吴恩达老师:DeepSeek 开源权重模型正加速基础模型层的“平民化”

AI前沿

AI教育第一人吴恩达老师:DeepSeek 开源权重模型正加速基础模型层的“平民化”,大幅降低开发与使用成本,中国 AI 实力崛起,正在快速逼近甚至部分领先美国。 过去一周,围绕 DeepSeek 的热议让很多人猛然意识到几件正在台前幕后的重要趋势:(1)中国在生成式 AI 领域正迅速追赶美国,这将影响 AI 供应链;(2)开源权重模型正将基础模型层“平民化”,从而为应用开发者带来新机遇;(3)扩大算力规模并不是唯一的 AI 发展之路。尽管近来对算力的关注度和炒作都非常高,但算法创新正使训练成本大幅下降。 大约一周前,总部位于中国的 DeepSeek 公司发布了 DeepSeek-R1,一个在多项基准测试中表现可与 OpenAI 的 o1 相媲美的出色模型。而且,它以 MIT 许可的方式开放了权重。在上周的达沃斯会议上,我和很多非技术背景的商业领袖交流时,他们都对 DeepSeek 充满疑问。周一,美国股市还出现了与“DeepSeek”相关的抛售:英伟达及其他多家美国科技公司的股价纷纷下挫(截至目前,部分已出现一定反弹)。 我认为 DeepSeek 让很多人意识到以下几点: 1. 中国在生成式 AI 方面正在逼近美国 自 ChatGPT 于 2022 年 11 月推出以来,美国曾在生成式 AI 领域大幅领先中国。人们对某个既有印象的更新往往需要时间,所以直到最近,我还在中美两地都听到有人说“中国似乎还差很远”。然而,在过去两年里,这种差距实际上正快速缩小。中国的 Qwen(我的团队已使用数月)、Kimi、InternVL 以及此次的 DeepSeek 等模型都表明,中国在很多方面确实在迎头赶上,甚至在视频生成等领域已出现中国领先的苗头。 2. DeepSeek-R1 的开源权重对行业意义重大 我十分高兴地看到 DeepSeek-R1 以开放权重、并附带详细技术报告的形式发布。相比之下,美国一些公司则大力鼓吹 AI 可能带来“人类灭绝”等假想风险,以推动对开源的严格监管。这次的事件更加凸显了:开源/开放权重模型是 AI 供应链的关键一环,许多企业会采用这些模型。如果美国继续阻碍开源模式,中国就有望在 AI 供应链中占据主导地位,而很多企业使用的模型也将更贴近中国的价值观,而非美国的。 3. 开源权重模型正在让基础模型层“平民化” 我之前就提到,大模型的令牌价格正在快速下降,而开放权重也在加速这一趋势,并为开发者提供更多选择。OpenAI 的 o1 每输出 100 万令牌收费 60 美元,而 DeepSeek-R1 只需 2.19 美元。这将近 30 倍的价差,让更多人注意到价格快速下行这件事。 对于那些专注训练基础模型并以 API 服务形式出售的公司来说,这条赛道不算轻松。很多此类公司仍在探索如何收回庞大的模型训练费用。红杉资本的文章《AI 的 6000 亿美元问题》对此做了很好的阐述(不过我要说明,我认为这些基础模型公司做得非常好,也希望它们能成功)。另一方面,基于这些基础模型开发应用却蕴含大量商业机会。如今,别人已经花费数十亿美金训练出的模型,你却可以仅用几美元就能拿来为客户打造服务型聊天机器人、邮件总结工具、AI 医生、法律文档助手等等。 4. 算力规模并不是唯一的 AI 进步路径 过去“扩大模型规模”这一方向曾备受关注,的确我也曾在早期就支持这一思路。一些公司借助“有了更多资本,就能(1)扩大规模、(2)在可预期的轨迹上获得性能提升”这样的叙事,成功融到了数十亿美元。于是,业界出现了对“扩大规模”近乎一边倒的重视,反而忽视了其他多种推动 AI 进步的手段。DeepSeek 团队部分由于受到美国对中国 AI 芯片的限制,只能使用相对性能较弱的 H800 GPU,而非 H100,因而不得不在算法和优化手段上另辟蹊径,最终在扣除研究成本后仅用不到 600 万美元的算力就完成了训练。 这是否真的会降低对算力的整体需求还不得而知。历史经验表明,单价的降低有时会让总支出反而增加。我认为从长远来看,人类对智能和算力的需求几乎没有上限,即便价格越来越低,我们依然会继续大幅增长对智能的应用,所以我对算力需求依旧保持乐观。 我也在社交平台上看到很多对 DeepSeek 成就的不同解读,仿佛一张罗夏墨迹测验图,人们会根据自己的立场投射各自的想法。我认为 DeepSeek-R1 在地缘政治层面将带来尚未明朗的影响,但对 AI 应用开发者来说,这绝对是个好消息。我的团队已经在讨论很多依托开放高级推理模型才能实现的新创意。对所有投身于 AI 应用的从业者而言,当下依旧是绝佳的构建时机! 聊天讨论群,微信群二维码

5分钟
99+
9个月前

DeepSeek深度求索AI被抓把柄,OpenAI震怒;创始人梁文锋据报回老家躲起来过年;马斯克评价:我才不信

AI前沿

DeepSeek深度求索AI被抓把柄,OpenAI震怒;创始人梁文锋据报回老家躲起来过年;马斯克评价DeepSeek算力深度:我才不信 世界首富,科技强人马斯克,亲睹中国科技公司DeepSeek深度求索,在美国人工智能AI行业引发的剧烈震动后,也发出深深怀疑。而中国媒体报道称,深度求索(DeepSeek)创始人梁文锋会回广东湛江吴川过年,但今年要躲起来。这一期《热点深度》,关注DeepSeek深度求索如何重新定义AI技术及其对国际科技合作的启示。以及美国国家安全委员会说要对 Deepseek 进行调查,彭博社和金融时报相继爆料,OpenAI称有证据显示DeepSeek存在侵权行为今天,我们将深入探讨中国的DeepSeek如何颠覆人工智慧技术的格局,以及美国为何必须重新考虑与中国的创新合作。观察家指出,DeepSeek的成功说明了创新并非仅仅依赖规模和资金,而是更需要培养人才和软体整合的能力。这一发展同时凸显了美国对中国高科技进步的“围堵”策略的局限性,并提醒美方,与中国的科技合作或许能成为解决全球挑战的关键。DeepSeek的表现不仅是对美国技术霸权的挑战,更是一个关于创新思维的启示。随着越来越多的中国企业像DeepSeek一样崛起,全球科技竞争的格局正在发生变化。美国如果不保持与中国的联系,将可能面临意想不到的技术惊喜。请大家继续收看详细内容!#deepseek #人工智能 #技术突破 #创新合作 #开源R1大语言模型 #成本效益 #人才培养 #软件整合 #美国 #中国 聊天讨论群,微信群二维码

11分钟
99+
9个月前
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧