时长:
21分钟
播放:
196
发布:
5天前
主播...
简介...
最近,Hugging Face的12位工程师发布了一份《The Smol Training Playbook》指南,记录了他们训练SmolLM3的全过程,可以说是一本模型训练的幕后纪实,里面有凌晨2点调试数据加载器的崩溃、突然飙升的损失曲线、藏在张量并行里的隐形Bug,还有为了平衡多语言与数学能力而重启1T token训练的无奈。今天,我们就来拆解一下这份指南,看看训练一个世界级的小模型,到底要闯多少关。
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
聊天讨论群,微信群二维码,可加个人微信gxjdian入群
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook
聊天讨论群,微信群二维码,可加个人微信gxjdian入群
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论