EP10 从零开始做大模型:Transformer变体与超参数优化
斯坦福AI大模型

EP10 从零开始做大模型:Transformer变体与超参数优化

6分钟 40 8个月前
节目简介
来源:小宇宙
深入探讨了大型语言模型(LLM)的架构和超参数。讲座首先回顾了Transformer模型,并比较了原始版本与现代实现的差异,强调了预归一化(pre-norm)和RMS归一化(RMS norm)等关键结构改进,以及放弃偏置项以提高稳定性和效率的趋势。文章还讨论了激活函数,特别指出门控线性单元(GLU)变体在性能上的优势。接着,讲座转向超参数,为前馈层大小、注意力头维度与模型维度之比、模型深度与宽度以及词汇表大小提供了共识性的经验法则。最后,讲座探讨了训练稳定性技巧,如Z-loss和QK归一化,以及旨在优化推理效率的多查询注意力(MQA)和分组查询注意力(GQA)。

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧