时长:
9分钟
播放:
122
发布:
3个月前
主播...
简介...
播客Shownotes:
引言
长期以来,行业普遍认为AMD的AI服务器在总拥有成本(TCO)上能提供优于NVIDIA的推理性能。为此,SemiAnalysis团队耗时6个月,通过全面分析和基准测试双方的推理解决方案验证这一说法,结果却比预期更复杂——在聊天应用、文档处理/检索、推理等不同任务中,两者性能表现差异显著。
核心发现
- 性能与成本的差异化表现对于直接拥有并运营GPU的超大规模企业和公司,部分工作负载下NVIDIA的每美元性能更优,其他工作负载则是AMD更占优;
短期至中期(6个月以内)租赁GPU的客户,由于提供AMD MI300X、MI325X租赁的Neoclouds服务商少,导致其租赁价格居高不下,NVIDIA因供应商众多形成竞争市场,每美元性能始终更优。
- 硬件竞争格局MI300X在多数测试场景中无法与H200竞争,但在Llama3 405B和DeepSeekv3 670B模型上,其绝对性能和每美元性能均击败H100;
MI325X本应对标H200,却因发货延迟至2025年第二季度,多数客户转向了更早出货的B200;
B200在当前可部署的负载和模型中占据绝对优势,MI325X和H200在性能上难以企及;
MI355X计划2025年末出货,比B200晚两个季度。
- 软件生态差距NVIDIA的TRT-LLM推理框架虽性能较强,但开发者体验仍不及vLLM或SGLang,且需完善对DeepSeek的支持及预构建容器镜像;
AMD的ROCm SGLang持续集成(CI)覆盖率不足NVIDIA的10%,Anush团队虽在努力提升,但差距仍大;
服务框架过多的配置选项导致全面基准测试困难,AMD还因添加环境变量加剧了这一问题,多数用户难以获得峰值性能。
硬件关键信息
- H100于2023年第二季度大规模出货,单GPU HBM容量80GB;
- H200 2024年第三季度出货,HBM容量提升至144GB,性能优于MI300;
- MI300X 2024年第一季度出货,单节点HBM容量1536GB;
- MI325X 2025年第二季度出货,HBM容量256GB,单节点达2048GB;
- B200 2025年第一季度末出货,HBM容量180GB,理论带宽8.00TB/s;
- MI355X计划2025年第三季度出货,HBM容量288GB。
成本与市场动态
- 直接拥有成本AMD的MI300X和MI325X每小时总拥有成本(TCO)通常低于NVIDIA的H100和H200,但若考虑具体任务和延迟要求,性价比会有差异。
- 租赁市场NVIDIA因超百家Neoclouds提供短期租赁,价格更具竞争力;
AMD因供应商少,租赁价格虚高,导致每美元性能落后。
- 市场份额AMD数据中心AI GPU份额自2023年第一季度稳步增长,但2025年第一季度因NVIDIA Blackwell系列大规模推出而下滑;
预计随着MI355X上市及软件改进,2025年末或2026年初有望回升。
主要挑战
- 服务框架配置复杂(如过多参数和环境变量),导致用户难以获取峰值性能;
- AMD模型在ROCm上的评估得分普遍低于CUDA,因缺乏CI和数值精度内核;
- NVIDIA的Dynamo框架支持解耦式预填充等先进功能,AMD尚未支持,在多节点推理上落后。
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论