Album
时长:
2分钟
播放:
13
发布:
1年前
主播...
简介...
https://xiaoyuzhoufm.com

关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。


田老师认为,AI已经在图像分类、阅读理解、视觉推理、语言理解等方面超过人类,下一步攻坚目标是需要复杂逻辑推理的数学与编程,善于推理的AI技术有可能在2年内取得突破。


全球AI要闻, Mistral联手Mamba开源首款代码模型。


7月17日,Mistral发布了两款小模型,Mathstral 7B和Codestral Mamba 7B,都是70亿参数量。Mathstral7B针对STEM学科的数学分析,上下文窗口为32k,Codestral Mamba 7B是使用Mamba架构的代码模型。值得关注的是,代码模型是首批采用Mamba 2架构的开源模型之一。实测7B性能接近22BTransformer架构,最多256k token上下文长度,都可以调用官方发布的Mistral-finetune和Mistral Inference两个开源SDK,使用或微调模型。


亮点1,Mathstral模型专为解决需要复杂、多步骤推理的高级数学问题,与战略合作伙伴共同研发,上周刚在Kaggle第一届AI奥数竞赛中得到冠军宝座的Numina。它可以正确回答“9.11和9.9哪个更大?”等难倒一众大模型的问题,答案是整数、小数分开比较,思维链非常清晰。


亮点2,官方博客透露,Mathstral模型似乎牺牲了一些推理速度以换取模型性能,但基准测试中,Mathstral打败了Llama 3 8B、Gemma29B,在AMC 2023、AIME 2024这类数学竞赛题上达到了SOTA。


亮点3,代码模型研发过程中,得到了Mamba原作者Albert Gu和TriDao的帮助,Codestral Mamba基本达到Code Llama 34B相匹配的效果,在其中6个测试上实现了性能超越。


亮点4,不到两个月前,Mistral刚发布了代码模型Codestral 22B新模型,研发速度几乎按月迭代了。


每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧