田丰说 - 第113集普林斯顿大学加速算法，突破H100利用率！ - EarsOnMe

时长：

1分钟

播放：

发布：

1年前

主播...

简介...

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。

田老师认为，当今人工智能最大的矛盾，在于飞速增长的社会应用需求与有限的算力供给之间的尖锐冲突，供需不平衡引发了一系列的AI基础软硬件创新，加速算法、新型算力芯片层出不穷，以弥补逐渐变慢的摩尔定律。

全球AI要闻，Transformer最新加速技术，将H100芯片利用率提升到75%。

FlashAttention是对注意力计算进行重新排序的算法，被广泛用于加速当今一统天下的Transformers大模型架构。时隔一年后，该技术推出了第三代更新，在FP16精度模式下，速度达到740 TFLOPS，这是H100芯片理论最大FLOPS利用率的75%。

FlashAttentionv1版、v2版以及最新的v3版作者也是Mamba架构的共同第一作者，普林斯顿大学助理教授Tri Dao。

未来，FlashAttention新版将被集成到Meta研发的全球最流行的PyTorch训练框架中，目前发布了用于Beta测试版源代码。

在保持准确性的同时，使用FP8这样的低精度，性能能够接近1.2 PFLOPS。这不仅加快了处理速度，还能减少内存使用，从而为运行大规模AI操作的客户节省巨额成本、提高算力效率。通过加速注意力机制，FlashAttention v3使AI模型能够更高效地处理更长的文本。

每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...