时长:
                                
                                
                                    33分钟
                                
                            
                                    播放:
                                
                                
                                    430                                
                            
                                    发布:
                                
                                
                                    6天前
                                
                            
                    主播...
                
                
            
                    简介...
                
                
                        📝 本期播客简介
本期我们克隆了知名科技播客,邀请到英伟达(NVIDIA)的首席技术官Michael Kagan进行深度对话。Michael
Kagan是半导体行业的传奇人物,曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者,拥有四十多年推动计算前沿发展的经验。对话围绕Mellanox被英伟达收购的里程碑事件展开,Michael详细阐述了Mellanox的互连技术如何成为英伟达AI帝国不可或缺的基石,实现了从单个芯片到数十万个芯片的协同工作,以及高速网络在分布式计算中如何克服通信瓶颈。他深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战,包括硬件故障的预设应对、跨数据中心的光速限制、以及如何通过软件和网络设计来优化效率和能耗。Michael还剖析了AI训练与推理工作负载的演变,特别是生成式AI如何让推理变得同样计算密集,甚至可能超越训练的需求,并展望了未来针对不同推理阶段的GPU优化方向。他分享了英伟达与英特尔合作的愿景,强调英伟达“双赢”的企业文化——不是瓜分现有蛋糕,而是共同做大市场。最后,Michael展望了AI的科幻未来,从AI模拟历史到AI发现物理定律,并提出了每年十倍性能增长的“黄加Kagan定律”,将AI比作改变世界的“思想的宇宙飞船”。
翻译克隆自:Nvidia CTO Michael Kagan: Scaling Beyond Moore's Law to Million-GPU Clusters
👨⚕️ 本期嘉宾
Michael Kagan,英伟达首席技术官(CTO)。他曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者。
⏱️ 时间戳
00:00 开场 & 播客简介
NVIDIA的“双赢”文化与Mellanox的关键作用
02:31 NVIDIA的“双赢”文化:做大蛋糕而非瓜分
03:08 嘉宾介绍:Michael Kagan的传奇职业生涯
04:50 Mellanox为何成为NVIDIA AI帝国的基石
05:00 AI时代算力需求指数级增长:超越摩尔定律
05:41 高速网络在AI扩展中的核心地位:纵向与横向扩展
06:31 NVLink:GPU内部的纵向扩展技术
07:15 GPU:一个系统而非单一芯片
08:13 横向扩展:分布式计算与网络通信瓶颈
09:08 Mellanox的价值:跨节点连接与任务拆分
10:32 网络性能关键:窄延迟分布而非仅峰值带宽
12:01 Bluefield DPU:数据中心操作系统的计算平台
13:09 Mellanox与NVIDIA的成功合并:双向奔赴
构建超大规模GPU集群的挑战
13:39 10万+ GPU集群的挑战:硬件故障与软件设计
14:32 单一任务在整个数据中心运行的特殊性
16:06 跨数据中心部署:光速限制与延迟管理
17:01 SpectrumX:边缘设备助力拥塞控制
AI训练与推理工作负载的演变及优化
18:16 训练与推理工作负载的差异
19:20 生成式AI如何让推理变得计算密集
20:03 推理的两个阶段:预填充与解码
20:45 推理需求可能超越训练:模型训练一次,推理亿万次
21:55 针对预填充和解码优化的专用GPU SKU
数据中心扩展的物理限制与未来
22:45 数据中心扩展的实际限制:能源与散热
23:37 液冷技术:实现更高密度的算力
24:23 吉瓦级数据中心:混凝土凝固速度的限制
NVIDIA与Intel的合作愿景
24:23 加速计算与通用计算的融合
25:22 NVIDIA与Intel合作:共同拓展市场
Mellanox被收购后的NVIDIA文化与增长
26:26 NVIDIA市值45倍增长:Mellanox合并后的文化变迁
27:32 Mellanox团队的成功整合与NVIDIA在以色列的扩张
AI的科幻未来与“黄加Kagan定律”
28:51 AI的科幻应用:实验历史与地球2模拟器
29:37 AI发现物理定律:从归纳到理解
30:08 “黄加Kagan定律”:每年十倍性能增长
31:18 指数级增长的不可预测性:类比iPhone的变革
AI的最终愿景:“思想的宇宙飞船”
32:07 AI:从“思想的自行车”到“思想的宇宙飞船”
33:05 AI的变革力量:如同电力般改变世界
🌟 精彩内容
💡 Mellanox与NVIDIA的融合:AI计算的基石
Michael Kagan详细阐述了Mellanox的互连技术如何成为英伟达AI帝国的不可或缺的基石。在AI算力需求指数级增长的背景下,Mellanox的高速网络技术实现了从单个芯片到数十万个芯片的协同工作,克服了分布式计算中的通信瓶颈,是实现AI大规模扩展的关键。
“英伟达有个很有意思的地方,就是它的双赢文化。我们追求的不是从现有的蛋糕里分走更大的一块,而是为所有人把蛋糕做得更大。”
🛠️ 超大规模GPU集群的挑战与优化
Michael深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战。他指出,硬件故障是必然的,因此设计必须预设应对机制;跨数据中心部署受限于光速,需要精密的网络设计来管理延迟和拥塞。NVIDIA通过Bluefield DPU和SpectrumX等技术,优化效率和能耗,将整个数据中心视为一个单一计算单元。
“当你构建一个包含十万个组件的机器时,所有部件同时正常工作的概率是零。所以肯定有东西是坏的,你需要在设计之初就考虑到如何在这种情况下继续运行。”
🚀 AI训练与推理工作负载的演变
随着生成式AI的兴起,推理工作负载变得同样计算密集,甚至可能超越训练的需求。Michael解释了推理的“预填充”和“解码”两个阶段,并表示NVIDIA正在开发针对这些阶段优化的专用GPU SKU,以满足不断增长的推理需求。
“推理对算力的需求其实不比训练少,甚至可能更多。因为模型你只训练一次,但推理要进行很多次。”
📈 “黄加Kagan定律”与AI的科幻未来
Michael提出了每年十倍性能增长的“黄加Kagan定律”,强调AI领域正以远超摩尔定律的速度发展。他展望了AI的科幻未来,包括AI模拟历史、发现物理定律的可能性,并将AI比作“思想的宇宙飞船”,预示着它将像电力一样彻底改变世界。
“摩尔定律是每两年翻一番。‘黄加Kagan定律’的斜率大概是每年十倍,或者说几个数量级。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用AI进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
                本期我们克隆了知名科技播客,邀请到英伟达(NVIDIA)的首席技术官Michael Kagan进行深度对话。Michael
Kagan是半导体行业的传奇人物,曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者,拥有四十多年推动计算前沿发展的经验。对话围绕Mellanox被英伟达收购的里程碑事件展开,Michael详细阐述了Mellanox的互连技术如何成为英伟达AI帝国不可或缺的基石,实现了从单个芯片到数十万个芯片的协同工作,以及高速网络在分布式计算中如何克服通信瓶颈。他深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战,包括硬件故障的预设应对、跨数据中心的光速限制、以及如何通过软件和网络设计来优化效率和能耗。Michael还剖析了AI训练与推理工作负载的演变,特别是生成式AI如何让推理变得同样计算密集,甚至可能超越训练的需求,并展望了未来针对不同推理阶段的GPU优化方向。他分享了英伟达与英特尔合作的愿景,强调英伟达“双赢”的企业文化——不是瓜分现有蛋糕,而是共同做大市场。最后,Michael展望了AI的科幻未来,从AI模拟历史到AI发现物理定律,并提出了每年十倍性能增长的“黄加Kagan定律”,将AI比作改变世界的“思想的宇宙飞船”。
翻译克隆自:Nvidia CTO Michael Kagan: Scaling Beyond Moore's Law to Million-GPU Clusters
👨⚕️ 本期嘉宾
Michael Kagan,英伟达首席技术官(CTO)。他曾是英特尔的首席架构师,后联合创办Mellanox并担任CTO。Mellanox于2019年被英伟达收购后,Michael成为英伟达AI计算平台主导地位的关键推动者。
⏱️ 时间戳
00:00 开场 & 播客简介
NVIDIA的“双赢”文化与Mellanox的关键作用
02:31 NVIDIA的“双赢”文化:做大蛋糕而非瓜分
03:08 嘉宾介绍:Michael Kagan的传奇职业生涯
04:50 Mellanox为何成为NVIDIA AI帝国的基石
05:00 AI时代算力需求指数级增长:超越摩尔定律
05:41 高速网络在AI扩展中的核心地位:纵向与横向扩展
06:31 NVLink:GPU内部的纵向扩展技术
07:15 GPU:一个系统而非单一芯片
08:13 横向扩展:分布式计算与网络通信瓶颈
09:08 Mellanox的价值:跨节点连接与任务拆分
10:32 网络性能关键:窄延迟分布而非仅峰值带宽
12:01 Bluefield DPU:数据中心操作系统的计算平台
13:09 Mellanox与NVIDIA的成功合并:双向奔赴
构建超大规模GPU集群的挑战
13:39 10万+ GPU集群的挑战:硬件故障与软件设计
14:32 单一任务在整个数据中心运行的特殊性
16:06 跨数据中心部署:光速限制与延迟管理
17:01 SpectrumX:边缘设备助力拥塞控制
AI训练与推理工作负载的演变及优化
18:16 训练与推理工作负载的差异
19:20 生成式AI如何让推理变得计算密集
20:03 推理的两个阶段:预填充与解码
20:45 推理需求可能超越训练:模型训练一次,推理亿万次
21:55 针对预填充和解码优化的专用GPU SKU
数据中心扩展的物理限制与未来
22:45 数据中心扩展的实际限制:能源与散热
23:37 液冷技术:实现更高密度的算力
24:23 吉瓦级数据中心:混凝土凝固速度的限制
NVIDIA与Intel的合作愿景
24:23 加速计算与通用计算的融合
25:22 NVIDIA与Intel合作:共同拓展市场
Mellanox被收购后的NVIDIA文化与增长
26:26 NVIDIA市值45倍增长:Mellanox合并后的文化变迁
27:32 Mellanox团队的成功整合与NVIDIA在以色列的扩张
AI的科幻未来与“黄加Kagan定律”
28:51 AI的科幻应用:实验历史与地球2模拟器
29:37 AI发现物理定律:从归纳到理解
30:08 “黄加Kagan定律”:每年十倍性能增长
31:18 指数级增长的不可预测性:类比iPhone的变革
AI的最终愿景:“思想的宇宙飞船”
32:07 AI:从“思想的自行车”到“思想的宇宙飞船”
33:05 AI的变革力量:如同电力般改变世界
🌟 精彩内容
💡 Mellanox与NVIDIA的融合:AI计算的基石
Michael Kagan详细阐述了Mellanox的互连技术如何成为英伟达AI帝国的不可或缺的基石。在AI算力需求指数级增长的背景下,Mellanox的高速网络技术实现了从单个芯片到数十万个芯片的协同工作,克服了分布式计算中的通信瓶颈,是实现AI大规模扩展的关键。
“英伟达有个很有意思的地方,就是它的双赢文化。我们追求的不是从现有的蛋糕里分走更大的一块,而是为所有人把蛋糕做得更大。”
🛠️ 超大规模GPU集群的挑战与优化
Michael深入探讨了构建和管理十万甚至百万级GPU集群所面临的独特挑战。他指出,硬件故障是必然的,因此设计必须预设应对机制;跨数据中心部署受限于光速,需要精密的网络设计来管理延迟和拥塞。NVIDIA通过Bluefield DPU和SpectrumX等技术,优化效率和能耗,将整个数据中心视为一个单一计算单元。
“当你构建一个包含十万个组件的机器时,所有部件同时正常工作的概率是零。所以肯定有东西是坏的,你需要在设计之初就考虑到如何在这种情况下继续运行。”
🚀 AI训练与推理工作负载的演变
随着生成式AI的兴起,推理工作负载变得同样计算密集,甚至可能超越训练的需求。Michael解释了推理的“预填充”和“解码”两个阶段,并表示NVIDIA正在开发针对这些阶段优化的专用GPU SKU,以满足不断增长的推理需求。
“推理对算力的需求其实不比训练少,甚至可能更多。因为模型你只训练一次,但推理要进行很多次。”
📈 “黄加Kagan定律”与AI的科幻未来
Michael提出了每年十倍性能增长的“黄加Kagan定律”,强调AI领域正以远超摩尔定律的速度发展。他展望了AI的科幻未来,包括AI模拟历史、发现物理定律的可能性,并将AI比作“思想的宇宙飞船”,预示着它将像电力一样彻底改变世界。
“摩尔定律是每两年翻一番。‘黄加Kagan定律’的斜率大概是每年十倍,或者说几个数量级。”
🌐 播客信息补充
本播客采用原有人声声线进行播客音频制作,也可能会有一些地方听起来怪怪的
使用AI进行翻译,因此可能会有一些地方不通顺;
如果有后续想要听中文版的其他外文播客,也欢迎联系微信:iEvenight
                    评价...
                
                                    空空如也
                        
            
         
                        小宇宙热门评论...
                    
                    
                                            
                                                    
                                                        AI时代
                                                    
                                                    
                                                
                                                
                                                        6天前
                                                        
                                                        福建
                                                    
                                                
                    1
                
            
                                                小宇宙交互设计太蛋疼了,订阅更新列表一不小心滑一下就把节目删了,太灵敏了,给个确认对话框比较合适吧。
                                            
                                        
                                                    
                                                        HD945716s
                                                    
                                                    
                                                
                                                
                                                        6天前
                                                        
                                                        北京
                                                    
                                                
                    0
                
            
                                                19:05 这期太硬核了