TSVC - 19. 后摩尔时代的AI算力 - EarsOnMe

主播...

简介...

TSVC举办了《打造下一个独角兽》讲座十九讲，从AI游戏到元宇宙，自动驾驶到智能化大数据中心，AI应用正在快速扩展。但这一切都离不开强大的算力支持。摩尔定律即将达到极限，我们需要寻找新的算力突破。本次TSVC讲座将探讨后摩尔时代的算力革新和产业链的变化。

嘉宾：

夏淳博士，TSVC联合创始人

夏任新，Untether AI，硬件工程副总裁

我们都聊了什么

00:00 活动概要嘉宾介绍

03:20 什么是算力？算力在AI应用中的重要性有哪些？

08:32 现在决定算力的因素有哪些？

13:05 为什么AI非常依靠并且消耗算力？AI的运算有什么特征? CPU、GPU、FPGA以及ASIC区别有哪些？

17:54 不管是芯片的技术路线，以及说大厂有大厂的做法，小厂有小厂的打法，是不是能够点评一下当前这几家大厂各自的优势以及近几年出现的一些像Untether AI比较头部的芯片公司？

32:50 现在看起来好像是NVIDIA一家独大，但是GPU其实用起来也没有那么好用，但是现在AI大势所趋，大家都在用GPU，觉得之后会是什么样的格局？

38:00 请问老师们怎么看AMD ROCM的发展，和NVIDIA CUDA在开源和闭源上优劣势的比较?

42:37 这是一家创业公司，在研发相关的加速软件，他们比较好奇的是，觉得完全靠芯片设计过于定制化了，两位老师觉得怎么样才能跟得上高速迭代？是不是也跟软件的设计和软件的优化有关联？

50:30 这是一家创业公司，在研发相关的加速软件，他们比较好奇的是，觉得完全靠芯片设计过于定制化了，两位老师觉得怎么样才能跟得上高速迭代？是不是也跟软件的设计和软件的优化有关联？

1:01:13 请问两位嘉宾，ARM CPU授权和RISC-V开源相比，从投资人的角度更愿意投哪个方向？

提到的公司/项目

• Trillion Operations Per Second（TOPS）

• Frames Per Second

• Queries Per Second

• Untether AI

• EDA领域

• Cadence

• 芯片

• SiFive

• 伯克利

• 开源CPU

• GPU

• 英特尔

• ARM

• RISC-V

• Altera

• FPGA

• UIUC

• memory hierarchy

• 存储墙

• 阿姆达尔定律（Amdahl's law）

• multi-issue多并发

• out-of-order execution乱序执行

• 卷积神经网络（CNN）

• NVIDIA

• ASIC（即专用芯片）

• Google的TPU

• Tensor张量

• AMD

• ROCM

什么是算力？算力在AI应用中的重要性有哪些？

TSVC联合创始人夏淳博士科普了算力的基本概念。算力是指每秒钟处理器可以执行多少次运算。在过去，人们通常使用每秒百万指令（MIPS）来衡量算力。但随着AI时代的到来，计算速度越来越快，所以现在使用每秒万亿次操作（TOPS）来计量算力。因此，算力的定义就是单位时间内能够执行的操作次数。由此可见，算力越高越好。计算机的发展历史也证明，无论算力做得有多大，都会被消耗殆尽，算力永远都不够用。

Untether AI硬件工程副总裁夏任新表示，如今我们通常用Trillion Operations Per Second（TOPS）来衡量计算机的算力。但事实上，这个operation本身的概念比较模糊，因为每家公司在架构和设计方面的操作定义都不同。因此，最终的衡量方法可能还是看最后的结果，比如对于图像处理，需要关注Frames Per Second；对于语音等应用场景，则需关注Queries Per Second，当然准确度也是非常重要的。总的来说，算力的概念简单来说就是TOPS，但是更深入的讨论会发现这个话题非常复杂。

夏淳博士表示邀请夏任新来讲解这个话题非常合适，因为他目前是在Untether任职，这是一家做AI算力的推理芯片的初创公司。此前，他在EDA领域的巨头Cadence做CEO的幕僚长，并非仅仅是芯片开发工具，而更加注重整个芯片系统未来发展的战略。因为现在的EDA公司也已经不仅仅是卖芯片设计工具，而是更深层次地思考行业发展的前景。在这之前，夏任新曾在SiFive任职。虽然SiFive可能并不为大众所熟知，但在业界却非常重要，因为这是伯克利研究团队David Patterson教授推广的开源CPU。CPU一直由英特尔和ARM主导的市场格局，如果开源CPU能够兴起，将成为一个巨大的颠覆者，那就是RISC-V，SiFive则是开源RISC-V商业化的公司。在那里，夏任新负责整个芯片的工程实现，可以说是非常重要的职位。夏任新也曾在Altera工作，该公司也在芯片行业举足轻重，它专注于FPGA技术的开发。这在芯片领域中具有非常关键的作用，因此他的这种背景对于讨论芯片行业非常相关。夏淳博士在自己的博士学位中研究的方向是计算机体系结构，而在UIUC的研究小组则专注于memory hierarchy的研究。这使得他具备了深入探讨算力的能力。

现在决定算力的因素有哪些？

夏淳博士指出，研究算力和计算机架构的人都知道存储墙是一个普遍存在的问题。存储墙是指从存储读取数据时会遇到的速度瓶颈，像是有一堵墙阻挡了数据的流动。我们都知道，普通处理器通常按照一个clock节拍来运行，一个节拍执行一条指令。这个节拍的速度可能是千兆赫兹。也就是说，CPU的运行速度就是根据这个clock速度来衡量的。但是在某些任务中，如果需要从内存中读取数据，可能需要花费数千个或数百万个clock节拍周期来完成。这个过程非常耗时和成本高昂，这就是内存墙的问题，它严重影响了整个系统运行的效率。

关于速度方面，在整个行业中，有一种被称为阿姆达尔定律（Amdahl's law）的法则，它原理类似于木桶原理。如果你的系统中存在短板，你的算力就会卡在该处，比如内存存储速度不足，那么整个系统的计算速度就会受到影响。因此，解决存储速度过慢的问题很关键。

另一个重要的因素是如何并行。这个并行性可在不同的层次上实现，有一种是叫指令级并行性。也就是说，系统能否同时执行多条指令，以加快处理速度。在专业里面这是所谓的multi-issue多并发、out-of-order execution乱序执行，在今天所有的芯片设计中，基本上内部都有这样的指令级并行构造。在AI领域，可以采用更多的方法来增加并行性。一种常见的方法是利用多核。此外，还可以使用多个芯片来协同工作，以进一步提高处理速度和并行性。现在看到的AI通常使用成千上万个芯片和主机板组合起来运行。通过这些方法，可以大幅提高AI系统的运行速度和效率。

Untether AI的硬件工程副总裁夏任新指出，今天的AI技术主要通过神经网络来实现，其中一个重要特点是其高度并行的架构。因此，存储墙成为了一个更加突出的问题。那现在解决的方案，其实跟传统的CPU应该是不太一样的。因为传统的CPU里面所谓的memory hierarchy就是加高速缓冲存储器，要加几级高速缓冲存储器，每级高速缓冲存储器尽量做大。那现在做AI加速或者神经网络加速，需要大规模并行计算，同时需要大规模并行的存储存取数据，而要避免出现数据瓶颈。如果能实现数十亿到百亿参数级别的并行计算是非常重要的。

为什么AI非常依靠并且消耗算力？AI的运算有什么特征? CPU、GPU、FPGA以及ASIC区别有哪些？

Untether AI的硬件工程副总裁夏任新指出，传统的处理器，如CPU和GPU，主要基于指令执行来实现计算。换句话说，我们编写软件并将其编译为计算机可执行代码后，会逐条执行这些代码并在计算机上运行。因此，处理器的性能一般按照指令执行速度来衡量。如每秒可以执行多少条指令等。

但从AI的角度来看，解决问题的方法有很多不同的方法。如果不用传统的架构，这个指令的概念就比较模糊了。因为最终看的是完成任务所需的时间，而不是处理指令的数量。举例来说，对于与计算机视觉相关的卷积神经网络（CNN），其主要计算任务是以矩阵乘法为主。在实现中，可以分解成多个计算指令去执行或者可以并行。另外，有些公司也会设计专门的电路来处理某些特定的计算任务。对于这种情况，指令的数量已经不再重要，而更注重的是加速器能否高效地、并行地完成矩阵乘法等任务。因此，我们最终需要以实际效果作为衡量AI加速器的标准。例如，加速器在每秒钟内能够处理多少张图片或者自动驾驶能同时支持多少个摄像头，并能支持多少帧率。这是比较重要的一个指标。至于具体的operation，那就很难说了，因为每家的一条指令，里面的实际动作都不太一样。

不管是芯片的技术路线，以及说大厂有大厂的做法，小厂有小厂的打法，是不是能够点评一下当前这几家大厂各自的优势以及近几年出现的一些像Untether AI比较头部的芯片公司？

夏任新表示，现在做AI的技术，真的像八仙过海，各显神通，每家每户他们的做法，他们的解决方案都不太一样。其实最终还是要从CPU开始讲起，因为大家都觉得CPU没有办法做AI，这太复杂了或者太贵了，效率太低了，这些的确都是的。但CPU的优势在于它们能够应用于多种任务。现在的AI任务仍然主要在CPU上处理，所以不能忽略CPU在整个计算架构中的重要性。因此，包括英特尔、AMD和RISC-V等处理器制造商，都在考虑如何在CPU下处理AI计算任务。特别是RISC-V作为一个开源的处理器架构，在这方面上，它会通过向量扩展和特殊指令等方式执行。同时，整个平台还是保持在一个传统的处理器下。

第二类就是GPU，GPU可以作为TPU等其他加速器的一部分，这些就是所谓的大规模并行计算引擎。这是很大的一个范围。但它们的基本原理仍然是Load-Store Computing，即把数据拿进来做一些处理，再把数据送出去，但是面临存储墙的问题。NVIDIA是当今最大的GPU加速器制造商，只是价格高昂、功耗大。但是大家没办法，所以还得要用它，所以现在的情况是这样的。

第三类是FPGA，它的优势是非常灵活，也可以实现大规模并行计算。在某些情况下，FPGA的效率甚至比GPU更高，功耗效率可以达到GPU的两倍左右。然而，FPGA编写程序的难度较高，这是FPGA的主要短板之一。此外，FPGA的运算能力仍然受限制。FPGA的设计初衷是为了可编程逻辑，而不是为了进行运算。

另一个大的领域是ASIC（即专用芯片），有很多公司都在推出针对特定市场的ASIC，例如自动驾驶或计算机视觉。当然，定制ASIC的效率是最高的。然而，设计一个ASIC需要很长的时间，因为AI和神经网络的发展速度非常快。例如，前不久ChatGPT才问世，但在其之前，这个概念根本不存在。如果您打算定制一个ASIC，当您设计出来时，市场和应用可能已经不需要了。比如您设计一款针对LSTM或RNN的ASIC，或者做唤醒词的语音AI芯片，但等您将做出来时，ChatGPT已经问世，这意味着您的ASIC可能已经失效了。因此，定制ASIC的风险也非常高。

最终，仍然需要开发一种比较通用的架构，这就是为什么CPU和GPU仍然比较占优势的原因。然而，它们存在一个很大的内存瓶颈。较先进的架构则尝试在内存上直接进行计算，因为神经网络所需要的主要是大量的存储。这是一个比较新的架构，大致可以分为In-Memory和Near-Memory Computing。这意味着尽可能将运算放在存储器旁边进行，因为神经网络主要是将大量数据存储在存储器中，如果可以在原地进行计算，将是最高效的方法。

因字数限制，更多内容请收听音频

欢迎关注“TSVC”的微信公众号，了解更多早期创投相关话题的干货内容！

加入日常交流群请看海报，添加TSVC小助手

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表