时长:
1分钟
播放:
10
发布:
1年前
主播...
简介...
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,当今人工智能最大的矛盾,在于飞速增长的社会应用需求与有限的算力供给之间的尖锐冲突,供需不平衡引发了一系列的AI基础软硬件创新,加速算法、新型算力芯片层出不穷,以弥补逐渐变慢的摩尔定律。
全球AI要闻,Transformer最新加速技术,将H100芯片利用率提升到75%。
FlashAttention是对注意力计算进行重新排序的算法,被广泛用于加速当今一统天下的Transformers大模型架构。时隔一年后,该技术推出了第三代更新,在FP16精度模式下,速度达到740 TFLOPS,这是H100芯片理论最大FLOPS利用率的75%。
FlashAttentionv1版、v2版以及最新的v3版作者也是Mamba架构的共同第一作者,普林斯顿大学助理教授Tri Dao。
未来,FlashAttention新版将被集成到Meta研发的全球最流行的PyTorch训练框架中,目前发布了用于Beta测试版源代码。
在保持准确性的同时,使用FP8这样的低精度,性能能够接近1.2 PFLOPS。这不仅加快了处理速度,还能减少内存使用,从而为运行大规模AI操作的客户节省巨额成本、提高算力效率。通过加速注意力机制,FlashAttention v3使AI模型能够更高效地处理更长的文本。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论