Album
时长:
2分钟
播放:
8
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,互联网数据推动大模型突飞猛进的成长期已过,最领先的大模型研发依赖高质量的合成数据,下一代大模型将展现出惊人的智能体能力,包括先思考再行动、调用工具、自我改进等。


全球AI要闻,Llama3.1作者认为,网络文本基本都是“狗屎”。


7月24日,Meta AI研究员ThomasScialom一直负责Llama 2/3系列模型post-training后训练,他在LatentSpace播客分享指出,网络上的文本都是“狗屎”,在这些标记上训练是在浪费算力。而目前训练后的Llama 3模型基本上没有任何人工编写的答案,它只是利用了Llama 2的纯合成数据。他指出Tokenizer的大小规模很重要,这一点被人们轻描淡写地忽略了。


亮点1,Llama2有3.4万个词库,即标记词表,GPT-4有10万个,GPT-4o增加到20万个。Llama3增加了4倍,达到12.8万个词库。如果一个标记符能表示更多的信息,那么在表示相同数量的文本时,需要的标记符总数就会减少,扩大了可感知的上下文大小,这能提高训练效率、存储空间利用率。


亮点2,Llama3.1在54天预训练期间遭遇了417次意外中断,挑战巨大。为什么不是MoE架构?Thomas回答,密集模型只是MoE超参数模型的一个特定变体,基本上只有一个专家模型,未来会探索MoE架构。


亮点3,Meta在6月已经开始训练Llama4大模型,重点围绕智能体,多模态版本将稍后发布。当前的Llama3模型在智能体工作流方面存在“智能差距”,AI无法在用户不依赖ReAct推理技术、CoT思维链、Autogen框架等技术时进行。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧