Album
时长:
4分钟
播放:
8
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,大模型是新一代智能硬件和云侧的操作系统,Meta凭借雄厚的现金流投资数百亿美元研发开源大模型,遵循“安卓策略”吸引了全球大量的开发者、研发团队,保证Llama系列大模型不仅在开源界遥遥领先,而且已经追平闭源大模型GPT-4o,客观上来说,Llama3模型已经成为全球能力最强、最受开发者欢迎的开源大模型。纵观国内,上海AI实验室研发的“书生·浦语2.5”大语言模型、“书生·万象2.0”多模态大模型正在引领国产化AI开源生态。


全球AI要闻,最强开源模型Llama 3.1 405B正式发布。


7月24日,Meta宣布世界上最大参数、功能最强的开源基础模型Meta Llama 3.1 405B正式发布,该模型拥有4050亿参数量,128k上下文窗口,支持8种语言。在关键基准测试上,405B模型的性能与OpenAI的GPT-4o十分接近。405B模型使用超过15万亿的token数据,在超过16000块H100GPU芯片上进行训练。Meta对训练堆栈进行了完整优化,选择进行少量调整的标准解码器Transformer架构,而不是MoE混合专家模型架构,最大限度提高了训练稳定性。


Meta公司CEO 扎克伯格写长文阐述《Open Source AI Is the Path Forward》,即《开源人工智能是前进路线》,Llama 3模型科研花费了“数亿美元”,下一阶段计算投资将达到数十亿美元。最值得关注的是,Meta开源了模型权重,发布了92页论文,包括预训练数据的筛选、合成数据的使用,视觉、语音、视频等多模态信息的处理,首次允许开发者使用Llama模型来改进其他模型。现在,开源模型技术几乎与封闭模型并驾齐驱了。论文亮点为:


亮点1,Meta指出高质量基础模型的开发有三个关键杠杆:数据、规模、复杂性管理。在数量和质量方面,改进了预训练和后训练的数据,Llama 3旗舰版语言模型使用了3.8× 10²⁵次浮点运算(FLOPs)进行预训练。


亮点2,15T的tokens数据管道使用Llama 2清理、过滤,代码和数学使用Deepseek v2管道,120 万个合成对话框从文档、说明转到代码,然后使用大语言模型LLM作为过滤判断,405B模型通过代码执行反馈进行自学,将代码数据转换为更小粒度的编程语言。


亮点3,PyTorch训练框架创始人Soumith Chintala 说,Llama3论文揭示了许多很酷的细节,其中之一就是基础设施的构建,总体有效训练时间达到了90%。


亮点4,为了支持405B模型的大规模生产推理,Meta将BF16量化为8位(FP8),从而降低了计算要求,并使模型能够在单个服务器节点上运行。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧