在人工智能大风口的背景下,无论是云计算企业还是大模型企业,全部都在加大对算力基础设施的投入。
逻辑很简单:在“尺度定律”下,行业的共识是大语言模型的性能会随着模型参数量、数据量和计算量的增加而提升,且这一规律在过去几年中得到了反复验证。
有机构统计,亚马逊、微软、谷歌和Meta去年资本支出达历史最高点,总额超2500亿美元,同比增长超60%;预计未来数年这些企业的资本支出还将显著增,连续创造历史纪录。
这些国外头部企业的新增资本开支,主要都是用于建设算力基础设施。
我国算力基础设施方面的投入也是当仁不让。根据IDC与浪潮信息联合发布的一份研究报告,2025年中国智能算力规模预计达1037.3EFLOPS,较2024年增长43%;2026年中国智能算力规模将达到2024年的两倍。
2023-2028年中国智能算力规模和通用算力规模的五年复合增长率分别达46.2%和18.8%。
国内大厂阿里巴巴、百度、腾讯不断加大资本开支,2024年第四季度这三大云厂商的资本开支合计为706.9亿元,同比增长252.7%,预计2025年国内三大云厂商将继续加大用于AI基础设施建设的资本开支。
这就好比是人工智能的“军备竞赛”——在可能是“AI生万物”的前夜,各个国家之间、各家企业之间,绝不会在算力基础设施方面有任何“承让”。
分解算力基础设施来看,除了人们耳熟能详的由算力设备、存储设备、网络设备、管理运维系统等核心要素组成的算力中心,以及各类芯片、服务器、基础通信服务、柴油发动机、UPS电源、基础设施管理系统、冷却系统等零件。
一些更加细分的赛道也起着至关重要的作用,其中就包括被马斯克多次提及的电力供应以及像光模块、光芯片这样在AI服务器内部相较于GPU、AI芯片这些“明星组件”并不那么起眼,但却同样非常关键的“光学”零件。
最近海外传来的一则消息更加令人不得不产生联想:打破算力“军备竞赛”平衡的关键要素,是否就在于光?
电的问题光来解决?
参数规模、数据量和计算复杂度使得算力成为大模型发展的核心制约因素,而算力需要大量的电力资源。
很多研究都已经指出,随着AI快速发展,算力中心用电量将持续攀升。
根据Digital Information World的报告,数据中心为训练AI模型产生的能耗是常规云计算的3倍。据《数据中心全生命周期绿色算力指数白皮书》预计,2030年我国数据中心能耗总量将超过4000亿千瓦时。
德勤预测,2025年全球数据中心用电量大约为536太瓦时(TWh),占全球用电量的2%,随着电力密集型生成式人工智能的训练和推理需求迅速增长,预计到2030年全球数据中心的用电量将翻一番,约达1065太瓦时。
“狂人”马斯克去年曾经表示,未来两年内AI行业将由“缺硅”变为“缺电”,而这可能阻碍人工智能的发展。在他看来,电力短缺可能会造成严重后果,就像芯片短缺一度阻碍科技和汽车行业一样。
今年五月,马斯克在接受外媒采访时表示,随着科技行业建立越来越大的数据中心,到明年年中,人工智能的发展可能会遇到发电问题。
他还透露,自己所拥有的AI初创公司xAI正计划在美国田纳西州孟菲斯市建立一座千兆瓦级的设施,该设施将在6到9个月内完工。
此外,他还不忘夸一夸中国:“中国的发电量看起来就像一枚火箭进入轨道,而美国的发电量却停滞不前。”意在指中国正在建设的发电量远远超过美国。
马斯克不是唯一这么想的AI领域头面人物。诸如Alphabet(谷歌)公司高层在内的众多行业大咖都表达过“发电能力不足会严重阻碍美国人工智能算力基础设施发展”的担忧。
在发电量上可能如何赶都赶不上中国的前提下,有没有什么方法能够实现弯道超车呢?最近有媒体报道的一则来自美国的学术科研消息可能就隐藏着“另一种解药”。
据媒体引用美国佛罗里达大学的一篇报道,一种由光而非电驱动的新型人工智能芯片在与传统性能相匹配的同时,实现了巨大的节能。
包括佛罗里达大学研究人员在内的一组工程师最近创造了一种突破性的芯片,该芯片依靠光而不是电来执行人工智能中最耗能的功能之一:识别图像和检测模式。
通过转向光,该芯片进行运算所需要的能量要少得多,效率比当今运行相同类型计算的芯片高10到100倍。这项创新可以缓解人工智能给电网带来的巨大压力,同时支持开发更先进、更强大的人工智能模型。
据悉,该新型技术所涉及的关键操作被称为“卷积”(Convolution),这是人工智能如何解释照片、视频甚至书面语言的核心过程。目前的现状是,卷积需要消耗大量能量、耗费大量时间。
而这种新芯片的设计通过将激光器和微型透镜直接集成到电路板上解决了这个问题,使芯片能够以更少的能量和更高的速度完成这些计算。
新型芯片的原型芯片使用两组采用标准制造工艺的极其微型的菲涅耳透镜。机器学习数据,例如来自图像或其他模式识别任务的数据,在芯片上转换为激光并通过透镜。然后将结果转换回数字信号以完成AI任务。
这种基于透镜的卷积系统不仅计算效率更高,而且减少了计算时间。用光代替电还有其他好处,比如可以使用不同颜色的激光并行处理多个数据流,因为可以让多个波长或颜色的光同时穿过透镜。
在早期试验中,该芯片在识别手写数字时达到了约98%的准确率,与传统电子芯片的性能相匹配。
美国佛罗里达大学相关研究的负责人表示,在接近零的能量下进行关键的机器学习计算是未来人工智能系统的一次飞跃。这是第一次有人将这种类型的光学计算放在芯片上并将其应用于人工智能神经网络。
这项研究虽然还停留在实验室阶段,但有两个重大意义值得提出:
其一,基于光学器件的人工智能芯片一旦被大量商业化应用,将大大减少算力中心的耗电量。这对美国这样正在大力发展相关设施但电力无法跟上的国家来说,是一个好的解决方案。说明科技还是第一生产力。
其二,这类涉及光学的人工智能基础设施零部件并不是那么罕见。前文提及应用于AI服务器中的光模块、光芯片是算力基础设施中负责数据高速传输的核心器件。
这段时间股市中围绕光模块的“易中天”概念股票也是走势激烈,引发很多股民的热烈讨论。行业领导者英伟达,已经将光模块这类元件整合到其人工智能服务器之中。这让上述这种基于光学卷积镜头芯片的应用有了很多铺垫。
人工智能算力基础设施的“光学”时代,就要到来了吗?
算力早已离不开光
所谓“易中天”,是市场给光模块行业三家龙头企业起的组合简称,“易”对应新易盛,“中”是中际旭创,“天”则是天孚通信。这三家的主营业务都是光模块。
在全球科技巨头对AI算力的需求依然强烈,相关基础设施投入仍在加强的背景下,LightCounting预计全球光模块市场在2024-2028年将以15%的年复合增长率扩张。
光模块是一种用于高速数据传输的光器件,其核心作用是“实现光信号和电信号之间的相互转换”。简单讲就是,它在发送端,通过激光器等内部组件将设备产生的电信号转换为光信号,送入光纤进行传输;在接收端,再通过探测器等组件,将接收到的光信号还原为电信号,供设备处理。
AI服务器的各类GPU/CPU之间需要处理海量数据交换,传统电信号传输(比如铜线)面临带宽和功耗瓶颈,而光通信凭借高频宽、低延迟的优势成为关键解决方案。以高速光模块连接GPU集群,替代铜线,已经成为了当下算力中心的主流,也推动了光模块技术的迭代,向着更高的速率迅猛进阶。
光芯片是光模块的核心组成部分,负责实现光电信号转换,是激光器芯片和探测器芯片的合称。激光器芯片主要用于发射信号,将电信号转化为光信号;探测器芯片主要用于接收信号,将光信号转化为电信号。光芯片系实现光电信号转换的基础元件,其性能直接决定了光通信系统的传输效率。
可见,光芯片的概念和上文提及的“基于光学透镜的卷积系统人工智能芯片”并不是一回事,需要注意区分。如果不注意区分,可能会得出“美国大学还在研究,中国企业已经量产”的错误论点。
无论如何,人工智能大爆发的当下,在算力基础设施强大需求的带动下,包括光模块、光芯片以及最新的涉及光学的AI芯片前沿研究都可能会出现质的飞跃。
空空如也
暂无小宇宙热门评论