Decoupled DiLoCo | DeepMind新论文
AI前沿

Decoupled DiLoCo | DeepMind新论文

15分钟 142 2天前
节目简介
来源:小宇宙
最近,谷歌DeepMind和谷歌研究院,又联合发布了一篇关于Decoupled DiLoCo的论文。论文数据显示,当集群规模达到240万块芯片时,传统弹性数据并行的有效计算时间只有40%,而Decoupled DiLoCo能在同样的极端故障环境下,将有效吞吐率稳定在86%,通信带宽需求只有传统方案的60分之一,甚至能把全球各地的老旧芯片、零散算力整合到同一场训练中,还不影响最终模型质量。今天我们就来拆解一下这篇论文,不得不说,做分布式系统还得看Jeff Dean。
https://arxiv.org/pdf/2604.21428v1
原视频来自:https://youtu.be/xGirTJSQ5pQ?si=db4FfcDmI9VgOLX2
聊天讨论群,可加微信gxjdian入群,需备注,来自播客AI前沿

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧