田丰说 - 第141集 Meta开源大模型，逆袭闭源GPT-4o! - EarsOnMe

主播...

简介...

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。

田老师认为，大模型是新一代智能硬件和云侧的操作系统，Meta凭借雄厚的现金流投资数百亿美元研发开源大模型，遵循“安卓策略”吸引了全球大量的开发者、研发团队，保证Llama系列大模型不仅在开源界遥遥领先，而且已经追平闭源大模型GPT-4o，客观上来说，Llama3模型已经成为全球能力最强、最受开发者欢迎的开源大模型。纵观国内，上海AI实验室研发的“书生·浦语2.5”大语言模型、“书生·万象2.0”多模态大模型正在引领国产化AI开源生态。

全球AI要闻，最强开源模型Llama 3.1 405B正式发布。

7月24日，Meta宣布世界上最大参数、功能最强的开源基础模型Meta Llama 3.1 405B正式发布，该模型拥有4050亿参数量，128k上下文窗口，支持8种语言。在关键基准测试上，405B模型的性能与OpenAI的GPT-4o十分接近。405B模型使用超过15万亿的token数据，在超过16000块H100GPU芯片上进行训练。Meta对训练堆栈进行了完整优化，选择进行少量调整的标准解码器Transformer架构，而不是MoE混合专家模型架构，最大限度提高了训练稳定性。

Meta公司CEO 扎克伯格写长文阐述《Open Source AI Is the Path Forward》，即《开源人工智能是前进路线》，Llama 3模型科研花费了“数亿美元”，下一阶段计算投资将达到数十亿美元。最值得关注的是，Meta开源了模型权重，发布了92页论文，包括预训练数据的筛选、合成数据的使用，视觉、语音、视频等多模态信息的处理，首次允许开发者使用Llama模型来改进其他模型。现在，开源模型技术几乎与封闭模型并驾齐驱了。论文亮点为：

亮点1，Meta指出高质量基础模型的开发有三个关键杠杆：数据、规模、复杂性管理。在数量和质量方面，改进了预训练和后训练的数据，Llama 3旗舰版语言模型使用了3.8× 10²⁵次浮点运算（FLOPs）进行预训练。

亮点2，15T的tokens数据管道使用Llama 2清理、过滤，代码和数学使用Deepseek v2管道，120 万个合成对话框从文档、说明转到代码，然后使用大语言模型LLM作为过滤判断，405B模型通过代码执行反馈进行自学，将代码数据转换为更小粒度的编程语言。

亮点3，PyTorch训练框架创始人Soumith Chintala 说，Llama3论文揭示了许多很酷的细节，其中之一就是基础设施的构建，总体有效训练时间达到了90%。

亮点4，为了支持405B模型的大规模生产推理，Meta将BF16量化为8位(FP8)，从而降低了计算要求，并使模型能够在单个服务器节点上运行。

每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

空空如也

加入我们的 Discord

扫描微信二维码

播放列表