时长:
58分钟
播放:
3.23万
发布:
3个月前
主播...
简介...
活动预告🥳:8 月 16 日,我们会办一场线上活动,嘉宾是 Luma AI 模型产品 Lead 戴高乐、爱诗科技联创谢旭璋、前 OpusClip 增长产品负责人谢君陶,大家记得翻到 shownotes 末尾查看报名信息!
本期嘉宾朱亦博可以说是国内最懂 AI Infra 的人之一。
从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行,如他所说,贾扬清、李沐等人可能是 AI Infra 的开路者,而他则是紧随其后的第二批从业者。
在这期播客中,亦博不仅分享了 AI Infra 的底层认知,也讲了很多行业的内幕故事与实战细节。我们从最基础的 AI Infra 定义聊起,解答了其在模型表现中的作用、重要性,也揭示了“优化指标”的意义与评判标准,并讨论了行业现状和未来发展等等内容。
听完这期,你可能会意识到:在大模型时代,AI Infra 不只是「降本」的后台支持,也是决定一家 AI 公司能走多远的核心战斗力。
BTW:阶跃最近刚刚开源了推理效率更高的基模 Step 3(github.com),亦博自己的团队也在招人中,感兴趣的可以联系邮箱:[email protected]
【人类博物馆】
导游:曲凯,42章经创始人
39 号珍藏:朱亦博,阶跃星辰联合创始人,前字节 AI Infra 负责人,也曾在微软、Google 任职
* 1:07 AI Infra 的定义
* 2:49 贾扬清、李沐是 AI Infra 的第一批人,我属于第二批
* 4:13 为什么说 Infra 迎来了一个新的 Google 级别的机会?
* 6:21 移动互联网 vs 大模型时代:两代 Infra 有什么异同?
* 7:38 算法人可能「只有 2 年的保质期」,Infra 更吃经验
* 8:40 怎么衡量 AI Infra 的好坏?几个关键指标
* 10:09 该不该、该怎么投入 Infra?一笔很好量化的 ROI 账
* 11:20 面对云厂商和模型公司的挤压,第三方公司的突破口是什么?
* 14:17 对 Infra 人的一句忠告:要么深入模型、要么深入硬件
* 16:15 AI Infra 对模型效果到底有多大的影响?
* 17:45 DeepSeek 能冲出来,一大原因是选对了优化目标
* 20:04 阶跃现在最重视的优化目标是什么?
* 22:06 Infra、算法、数据团队之间该怎么配合?有关组织架构的心得体会
* 28:41 做 AI Infra 最大的阻碍是什么?
* 30:16 模型范式不会那么快革新,但多模态可能是一个突破口
* 32:29 简评几家硅谷当红 AI Infra 公司
* 34:15 第三方 AI Infra 的创业机会在哪里?
* 36:35 我们想提升国产卡的竞争力,哪怕只有一点点
* 39:28 介绍一下阶跃新发布的视觉推理模型
* 46:30 DeepSeek 做得好,就是因为梁文锋懂 Infra?
* 47:54 一些业内真实的踩坑案例
* 55:13 给 Infra 从业者的一些建议
* 55:43 《The Bitter Lesson》的含金量还在上升
【活动预告🥳】
8 月 16 日,我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!
【The gang that made this happen】
* 制作人:陈皮、Celia
* 剪辑:陈皮
* Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
本期嘉宾朱亦博可以说是国内最懂 AI Infra 的人之一。
从微软、字节 AI Infra 负责人到谷歌、再到阶跃联创,他的职业经历几乎和 AI Infra 的发展并行,如他所说,贾扬清、李沐等人可能是 AI Infra 的开路者,而他则是紧随其后的第二批从业者。
在这期播客中,亦博不仅分享了 AI Infra 的底层认知,也讲了很多行业的内幕故事与实战细节。我们从最基础的 AI Infra 定义聊起,解答了其在模型表现中的作用、重要性,也揭示了“优化指标”的意义与评判标准,并讨论了行业现状和未来发展等等内容。
听完这期,你可能会意识到:在大模型时代,AI Infra 不只是「降本」的后台支持,也是决定一家 AI 公司能走多远的核心战斗力。
BTW:阶跃最近刚刚开源了推理效率更高的基模 Step 3(github.com),亦博自己的团队也在招人中,感兴趣的可以联系邮箱:[email protected]
【人类博物馆】
导游:曲凯,42章经创始人
39 号珍藏:朱亦博,阶跃星辰联合创始人,前字节 AI Infra 负责人,也曾在微软、Google 任职
* 1:07 AI Infra 的定义
* 2:49 贾扬清、李沐是 AI Infra 的第一批人,我属于第二批
* 4:13 为什么说 Infra 迎来了一个新的 Google 级别的机会?
* 6:21 移动互联网 vs 大模型时代:两代 Infra 有什么异同?
* 7:38 算法人可能「只有 2 年的保质期」,Infra 更吃经验
* 8:40 怎么衡量 AI Infra 的好坏?几个关键指标
* 10:09 该不该、该怎么投入 Infra?一笔很好量化的 ROI 账
* 11:20 面对云厂商和模型公司的挤压,第三方公司的突破口是什么?
* 14:17 对 Infra 人的一句忠告:要么深入模型、要么深入硬件
* 16:15 AI Infra 对模型效果到底有多大的影响?
* 17:45 DeepSeek 能冲出来,一大原因是选对了优化目标
* 20:04 阶跃现在最重视的优化目标是什么?
* 22:06 Infra、算法、数据团队之间该怎么配合?有关组织架构的心得体会
* 28:41 做 AI Infra 最大的阻碍是什么?
* 30:16 模型范式不会那么快革新,但多模态可能是一个突破口
* 32:29 简评几家硅谷当红 AI Infra 公司
* 34:15 第三方 AI Infra 的创业机会在哪里?
* 36:35 我们想提升国产卡的竞争力,哪怕只有一点点
* 39:28 介绍一下阶跃新发布的视觉推理模型
* 46:30 DeepSeek 做得好,就是因为梁文锋懂 Infra?
* 47:54 一些业内真实的踩坑案例
* 55:13 给 Infra 从业者的一些建议
* 55:43 《The Bitter Lesson》的含金量还在上升
【活动预告🥳】
8 月 16 日,我们会办一场线上活动。感兴趣的朋友欢迎点击链接或扫描下面的二维码,一起来认识&交流!
【The gang that made this happen】
* 制作人:陈皮、Celia
* 剪辑:陈皮
* Bgm:Mondo Bongo - Joe Strummer & The Mescaleros
评价...
空空如也
小宇宙热门评论...
Baca
3个月前
美国
34
这期质量真的挺高的 Infra类嘉宾访谈也比较少 把高技术门槛的东西讲的尽量浅显 不错!
小孟Lemon
3个月前
山东
19
26:26 tp模型的算法效果不是算法人决定的是数据决定的。模型的效率和成本是系统决定的,结论:模型结构应该由系统的人来设计,才能获得最好的成本;模型的点数效果、刷榜应该数据的人负责;算法人最要做好的是训练的范式。
HD824042u
3个月前
美国
14
我在硅谷大厂做推荐系统模型,工作几年深刻体会到做模型的人懂AI infra和GPU infra的重要性,做codesign也是我们的理想。但是因为组织架构的原因,平时很难接触ai infra,除非换组,但换组也面临离topline metrics太远以及重新build trust等种种问题。想问问主持和嘉宾,对于做模型和算法出身的人去学习ai infra打通这块,有什么建议和路径吗?
Irena_33
3个月前
上海
13
模型和硬件的系统 co-design,很少有人有思考或者有条件做这个维度的思考,却关系到大模型训练和推理的效率乘法。算法、数据、系统的one team是新时代的黄金。
Deardrops
3个月前
四川
12
47:55 这里提到的模型应该是 GLM 4.5 https://z.ai/blog/glm-4.5
AICRI
3个月前
上海
9
非常好的一期 当大家都在谈应用谈Agent 其实更应该看一些不同角度 更底层的没有那么性感的东西
anymore
3个月前
浙江
8
33:43 emm 关于 snowflake 的理解不太认同,它的核心是 data warehouse ,做的就是计算和存储的事情,至于底层的 cloud vendor 则不是关键
巴赫门徒
3个月前
北京
7
干货很多
浮生慢歌
2个月前
北京
7
1.AI Infra要取得好的效果应该要么往上(算法)贴,要么往下(硬件)贴。
点评:本质是因为算法和芯片架构都还不算收敛,目前市面上好的infra是基于nvidia的架构优化适配算法侧,用强制收敛芯片端的方式来控制ai infra软件本身的复杂度。
2.系统级别的优化工作需要ai infra团队lead,infra团队在模型设计前期介入会为未来的优化剩下很多精力。
点评:infra是纽带,将逻辑上的计算图映射到实际上的计算单元的时空间分配与调度上。所以一个模型理论上的计算优势(不管是训练或推理)必须通过infra和芯片团队的努力才能在现实里落地。
木木木人心
3个月前
天津
5
受益良多的一期! 第一次听Infra的概念,对于非技术出身的人也能很好的理解内容。为了节省成本的infra也可以反向影响模型本身,感觉对于其他业务也是可以复用的概念。
小竹
3个月前
北京
3
必须收听啊
大伟爱偷懒
3个月前
北京
3
这期受益很多
HD眸目
3个月前
河北
3
46:14 相当透彻
metaQ
3个月前
浙江
3
20:01 有意思,DeepSeek的成功居然是偶然的推理成本最低作为目标来做的infra
MISGRL13
3个月前
北京
3
非常喜欢这期 嘉宾和主持人超级棒
LearnWise
3个月前
安徽
3
26:58 https://www.xiaoyuzhoufm.com/episode/683d2ceb38dcc57c641a7d0f 可以结合这期一起听。
嘻嘻艾米丽
3个月前
美国
3
好硬核,求文字版,可以仔细看🧐
rickzhai
2个月前
英国
2
58:03 嘉宾说的太对了,也和deepmind的人聊过类似问题,transformer的作者设计引入qkv的初衷就是尽可能增加gpu的使用效率(可多头并行)。所以,最大程度发挥硬件的计算能力,就是ai的第一性原理。
haitaoyao
3个月前
浙江
2
49:53 MoE 架构核心是 infra 话语权:算法认为那是降本,不是能力提升,😄
赵来福_SOqE
3个月前
日本
1
有人知道这里说的是哪篇文章吗