EP9 从零开始做大模型:精算大模型训练成本
斯坦福AI大模型

EP9 从零开始做大模型:精算大模型训练成本

22分钟 96 8个月前
节目简介
来源:小宇宙
详细介绍了从零开始构建语言模型,重点是PyTorch原语和资源核算。它首先讨论了PyTorch中的张量,包括它们的存储、内存使用以及不同浮点数据类型(如FP32、FP16和BF16)的权衡。该讲座随后探讨了计算成本,特别是矩阵乘法在深度学习操作中的主导作用,以及如何计算浮点运算(FLOPs)和模型浮点利用率(MFU)。此外,它解释了反向传播期间梯度计算的资源需求,并介绍了参数初始化、优化器(如Adagrad和Adam)以及模型训练循环。最终,该讲座强调了理解内存和计算核算对于高效训练大型语言模型的重要性,这些概念将在未来应用于Transformer模型。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧