今天我们探讨的话题是,DeepSeek:如何用低成本做出顶级AI的神秘东方力量
近期,国产开源MOE大模型DeepSeek V3在全球范围内引起了轰动,国外各路大神纷纷表达震惊,同时在推特上发表夸张评论,国外媒体纷纷用“震惊”和“东方魔法”来形容这一壮举。因为DeepSeek V3仅以557万美元的成本,就实现了OpenAI和谷歌等科技巨头花费数亿美元才能达到的成就,其成本约为LlaMA 3.1的十分之一,GPT-4的二十分之一。在这样惊人的成本效益下,DeepSeek还登顶了开源领域,击败了LLaMA 3.1,并赶超了价格昂贵的Bing Chat 3.5和GPT-4 。
要我来说,deepseek还真是火出圈了,各个博主在短视频平台纷纷晒出自己跟deepseek的聊天对话,什么续写小说,什么帮我骂一下另一家AI,网友怒评到,这还是AI吗,确定后面没坐着人?仔细观察的能发现,但凡跟deepseek沾上边的,少的流量有几十万,多的有上千万,流量密码这不来了吗?
那么,这个DeepSeek深度探索者究竟是何方神圣,为何如此火爆,又是如何做到既快速又强大的呢?普通人如何能使用它,实际效果如何,又有哪些缺点?它的出现将带来多大的影响?今天,我们就来深入探讨这个震撼英伟达的国产大模型。
DeepSeek相当低调,可能只有非常关注AI领域的朋友才有所了解。然而,它的来头并不简单。其全资东家是国产顶级量化基金幻方量化,这是一家曾经管理过千亿资产的量化私募机构。DeepSeek是幻方量化在2023年4月成立的全资子公司,未接受过任何外部投资。这种独立自主的运营方式,无疑是其能够取得如此成就的重要原因之一。
那么,为什么DeepSeek V3突然如此火爆呢?简而言之,就是因为它显著降低了训练高性能大模型的价格。当所有巨头都在为数亿的训练成本发愁,甚至预言未来成本可能高达数百亿、数千亿时,DeepSeek却以550万美元的成本,直接颠覆了这一行业常态。它不仅在训练成本上实现了巨大突破,还在计算量和推理成本上大幅领先。别人需要用16000张H100训练好几个月,而DeepSeek只用2048张H800训练了两个月,计算量几乎是别人的八分之一。在推理成本方面,别人卖20美元的会员还限额,而DeepSeek的API每百万token才1美元,几乎是GPT-4 Turbo的七十分之一。
因此,DeepSeek被外媒称为“来自东方的神秘魔法”,并被冠以“英伟达大空投”、“砸盘者”、“黑科技AI拼多多”等名号。然而,光便宜还不够,DeepSeek的性能也同样令人震撼。其在数学能力和编程能力方面直接逼近最前沿的Bing Chat 3.5和GPT-4 Turbo,在多任务和复杂问题上也超越了其他模型。
那么,DeepSeek为何能如此便宜又强大呢?其实,你可以将DeepSeek理解为聪明的“花式卷王”。它采用了MOE(Mixture of Experts)架构,即混合专家模型,由数百个擅长不同领域的专家模型组成,根据任务需求灵活调用。然而,这并不是其成本低的主要原因。DeepSeek之所以能成为AI领域的“拼多多”,关键在于其技术创新。
我们可以将训练大模型想象成一个工厂,降低成本的方式无非两种:一是压缩整体的工作量,二是提高工作效率,不让任何一个“工人”闲置。DeepSeek的MLA(Multi-Layer Attention)和FP8混合精度训练就是在压缩工作量。MLA将多层注意力机制合并,减少了内存占用;FP8则采用较低的精度进行计算,从而减少了计算量。而DeepSeek的刀派谱(Dynamic Allocation and Parallel Processing)无损失辅助的负载均衡策略,以及全对全全通性内核,则是为了提高工作效率,确保每个“工人”都能充分发挥作用。
此外,DeepSeek之所以能在能力上比肩顶尖模型,还有三个关键原因:模型够大、数据够好、适当偏科。它有671B的参数量,比LLaMA 3.1的405B还大;在训练数据上精益求精,从挑选数据到清洗数据、处理数据都进行了精细调制;同时,它还采用了MTP(Multi-Token Prediction)技术,同时预测多个连续的token,提高了效率并把握了token之间的依赖关系。
那么,普通人如何使用DeepSeek呢?其实非常简单。最直接的方式就是访问其官网,国产模型打开即用且免费。此外,还可以通过调用API来使用DeepSeek。目前其价格还在优惠中,几乎等于免费。有些朋友甚至在Cursor或Client等平台上使用DeepSeek替代Bing Chat或开源的LowCode WeChat等工具。
我们来实际测试一下DeepSeek的水平吧。首先问问它是谁,它已经修补了之前声称自己是GPT-4的问题。然后问它一个擅长的数学题,这是一道2024年的考研数学题。DeepSeek的回答速度很快,虽然最终答案形式有误,但其解题思路和计算过程是正确的。相比之下,其他模型在这道题上完全错误。接着测试一下编程能力,让它做一个前端网页页面来帮助决定是该继续读博士还是出道当偶像。DeepSeek给出的代码虽然有些小bug,但整体思路是清晰的。在创意生成方面,DeepSeek相对较弱一些,但结构化思维大大高于发散性思维。
当然,DeepSeek也有一些缺点。比如它没有多模态功能,官网上能传文字图片大概率是因为在传给大模型之前做了文字的OCR处理,直接调用API是没有的。同时它的上下文长度只有64K,相比Cursor里200K上下文的Bing Chat可能会对项目代码的整体理解有一定影响。但总体来说,DeepSeek已经非常强大了。
那么,DeepSeek如此火爆、如此便宜又强大,实测效果也很亮眼,它对整个AI行业会有什么影响呢?首先,它让海外朋友震惊不已,甚至开始质疑是否需要购买顶尖的GPU。因为DeepSeek用2000多块阉割版的H800都训练出了超过1.6万GPU的LLaMA 3.1。这也再次掀起了对我国可能像互联网和新能源车一样再次占领高地的恐慌。然而,也有声音认为这种工程化卷法并不是创新。
但我认为,即使DeepSeek并没有在创造更通用智能的大脑这件事上进行前沿探索,但也不能忽视工程创新的力量。就像马斯克最早造火箭时并没有发明什么绝世材料或爵士技术一样,他就是通过花式卷、用不锈钢来造火箭、卷到成本低到让拉萨想哭、卷到全世界80%的卫星都是他发的。你能说马斯克没有为上火星做贡献吗?这基本都是他的贡献。同样地,DeepSeek V3的出现也至少会有以下影响:一是价格递减,AI行业再次打响价格战;二是思维革命,引发各方对理论创新和工程精细化实现的平衡追求;三是蝴蝶效应,开源之王从LLaMA转移到DeepSeek,更多科技公司将能参与到训练大模型中来。
这三波叠加的结果将是AI民主化的加速推进。或许我们可以不让高性能AI走向贵族玩具的道路,而是让它成为人民的工具,甚至为通向AGI(通用人工智能)的道路扫平一些障碍、拉入更多的力量。也许通向AI未来的路不一定只有最贵的那一条。你怎么看呢?
注:
本音频仅限于本基金管理人与合作平台开展投教活动之目的使用,禁止第三方机构单独摘引、截取或以其他不恰当方式转播。
本音频为客户服务材料,既不构成基金宣传推介材料,也不构成任何法律文件。本音频所载信息和观点仅供阅读者参考。
德邦基金在本音频中的所有观点仅代表德邦基金在本音频成文时的观点,德邦基金有权对其进行调整;在不同时期,德邦基金可能会发出与本音频所载不一致的观点。
若本音频转载第三方报告或资料,转载内容仅代表该第三方观点,并不代表德邦基金的观点,德邦基金不对这些信息的真实性、准确性和完整性提供任何直接或间接的声明或保证
空空如也
暂无小宇宙热门评论