关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,互联网数据推动大模型突飞猛进的成长期已过,最领先的大模型研发依赖高质量的合成数据,下一代大模型将展现出惊人的智能体能力,包括先思考再行动、调用工具、自我改进等。
全球AI要闻,Llama3.1作者认为,网络文本基本都是“狗屎”。
7月24日,Meta AI研究员ThomasScialom一直负责Llama 2/3系列模型post-training后训练,他在LatentSpace播客分享指出,网络上的文本都是“狗屎”,在这些标记上训练是在浪费算力。而目前训练后的Llama 3模型基本上没有任何人工编写的答案,它只是利用了Llama 2的纯合成数据。他指出Tokenizer的大小规模很重要,这一点被人们轻描淡写地忽略了。
亮点1,Llama2有3.4万个词库,即标记词表,GPT-4有10万个,GPT-4o增加到20万个。Llama3增加了4倍,达到12.8万个词库。如果一个标记符能表示更多的信息,那么在表示相同数量的文本时,需要的标记符总数就会减少,扩大了可感知的上下文大小,这能提高训练效率、存储空间利用率。
亮点2,Llama3.1在54天预训练期间遭遇了417次意外中断,挑战巨大。为什么不是MoE架构?Thomas回答,密集模型只是MoE超参数模型的一个特定变体,基本上只有一个专家模型,未来会探索MoE架构。
亮点3,Meta在6月已经开始训练Llama4大模型,重点围绕智能体,多模态版本将稍后发布。当前的Llama3模型在智能体工作流方面存在“智能差距”,AI无法在用户不依赖ReAct推理技术、CoT思维链、Autogen框架等技术时进行。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
空空如也
暂无小宇宙热门评论