Album
时长:
9分钟
播放:
122
发布:
3个月前
主播...
简介...
https://xiaoyuzhoufm.com

播客Shownotes:


​引言​


长期以来,行业普遍认为AMD的AI服务器在总拥有成本(TCO)上能提供优于NVIDIA的推理性能。为此,SemiAnalysis团队耗时6个月,通过全面分析和基准测试双方的推理解决方案验证这一说法,结果却比预期更复杂——在聊天应用、文档处理/检索、推理等不同任务中,两者性能表现差异显著。


​核心发现​



  1. ​性能与成本的差异化表现​​对于直接拥有并运营GPU的超大规模企业和公司,部分工作负载下NVIDIA的每美元性能更优,其他工作负载则是AMD更占优;

    短期至中期(6个月以内)租赁GPU的客户,由于提供AMD MI300X、MI325X租赁的Neoclouds服务商少,导致其租赁价格居高不下,NVIDIA因供应商众多形成竞争市场,每美元性能始终更优。


  2. ​硬件竞争格局​​MI300X在多数测试场景中无法与H200竞争,但在Llama3 405B和DeepSeekv3 670B模型上,其绝对性能和每美元性能均击败H100;

    MI325X本应对标H200,却因发货延迟至2025年第二季度,多数客户转向了更早出货的B200;

    B200在当前可部署的负载和模型中占据绝对优势,MI325X和H200在性能上难以企及;

    MI355X计划2025年末出货,比B200晚两个季度。


  3. ​软件生态差距​​NVIDIA的TRT-LLM推理框架虽性能较强,但开发者体验仍不及vLLM或SGLang,且需完善对DeepSeek的支持及预构建容器镜像;

    AMD的ROCm SGLang持续集成(CI)覆盖率不足NVIDIA的10%,Anush团队虽在努力提升,但差距仍大;

    服务框架过多的配置选项导致全面基准测试困难,AMD还因添加环境变量加剧了这一问题,多数用户难以获得峰值性能。



​硬件关键信息​



  • H100于2023年第二季度大规模出货,单GPU HBM容量80GB;

  • H200 2024年第三季度出货,HBM容量提升至144GB,性能优于MI300;

  • MI300X 2024年第一季度出货,单节点HBM容量1536GB;

  • MI325X 2025年第二季度出货,HBM容量256GB,单节点达2048GB;

  • B200 2025年第一季度末出货,HBM容量180GB,理论带宽8.00TB/s;

  • MI355X计划2025年第三季度出货,HBM容量288GB。


​成本与市场动态​



  • ​直接拥有成本​​AMD的MI300X和MI325X每小时总拥有成本(TCO)通常低于NVIDIA的H100和H200,但若考虑具体任务和延迟要求,性价比会有差异。


  • ​租赁市场​​NVIDIA因超百家Neoclouds提供短期租赁,价格更具竞争力;

    AMD因供应商少,租赁价格虚高,导致每美元性能落后。


  • ​市场份额​​AMD数据中心AI GPU份额自2023年第一季度稳步增长,但2025年第一季度因NVIDIA Blackwell系列大规模推出而下滑;

    预计随着MI355X上市及软件改进,2025年末或2026年初有望回升。



​主要挑战​



  • 服务框架配置复杂(如过多参数和环境变量),导致用户难以获取峰值性能;

  • AMD模型在ROCm上的评估得分普遍低于CUDA,因缺乏CI和数值精度内核;

  • NVIDIA的Dynamo框架支持解耦式预填充等先进功能,AMD尚未支持,在多节点推理上落后。

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧