斯坦福AI大模型 - EP10 从零开始做大模型：Transformer变体与超参数优化 - EarsOnMe

主播

节目简介

来源：小宇宙

深入探讨了大型语言模型（LLM）的架构和超参数。讲座首先回顾了Transformer模型，并比较了原始版本与现代实现的差异，强调了预归一化（pre-norm）和RMS归一化（RMS norm）等关键结构改进，以及放弃偏置项以提高稳定性和效率的趋势。文章还讨论了激活函数，特别指出门控线性单元（GLU）变体在性能上的优势。接着，讲座转向超参数，为前馈层大小、注意力头维度与模型维度之比、模型深度与宽度以及词汇表大小提供了共识性的经验法则。最后，讲座探讨了训练稳定性技巧，如Z-loss和QK归一化，以及旨在优化推理效率的多查询注意力（MQA）和分组查询注意力（GQA）。

EP10 从零开始做大模型：Transformer变体与超参数优化

加入我们的 Discord

扫描微信二维码

播放列表