田丰说 - 第145集 Meta AI研究员：网上文本都是“狗屎”! - EarsOnMe

田丰说
第145集 Meta AI研究员：网上文本都是“狗屎”!

时长：

2分钟

播放：

发布：

1年前

主播...

田丰说

简介...

关注《田丰说》，每天3分钟，掌握全球AI大事件！本视频由商汤“如影”数字人APP生成。

田老师认为，互联网数据推动大模型突飞猛进的成长期已过，最领先的大模型研发依赖高质量的合成数据，下一代大模型将展现出惊人的智能体能力，包括先思考再行动、调用工具、自我改进等。

全球AI要闻，Llama3.1作者认为，网络文本基本都是“狗屎”。

7月24日，Meta AI研究员ThomasScialom一直负责Llama 2/3系列模型post-training后训练，他在LatentSpace播客分享指出，网络上的文本都是“狗屎”，在这些标记上训练是在浪费算力。而目前训练后的Llama 3模型基本上没有任何人工编写的答案，它只是利用了Llama 2的纯合成数据。他指出Tokenizer的大小规模很重要，这一点被人们轻描淡写地忽略了。

亮点1，Llama2有3.4万个词库，即标记词表，GPT-4有10万个，GPT-4o增加到20万个。Llama3增加了4倍，达到12.8万个词库。如果一个标记符能表示更多的信息，那么在表示相同数量的文本时，需要的标记符总数就会减少，扩大了可感知的上下文大小，这能提高训练效率、存储空间利用率。

亮点2，Llama3.1在54天预训练期间遭遇了417次意外中断，挑战巨大。为什么不是MoE架构？Thomas回答，密集模型只是MoE超参数模型的一个特定变体，基本上只有一个专家模型，未来会探索MoE架构。

亮点3，Meta在6月已经开始训练Llama4大模型，重点围绕智能体，多模态版本将稍后发布。当前的Llama3模型在智能体工作流方面存在“智能差距”，AI无法在用户不依赖ReAct推理技术、CoT思维链、Autogen框架等技术时进行。

每天3分钟，掌握全球AI大事件！《田丰说》全网发布，敬请关注！

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表