时长:
1分钟
播放:
13
发布:
1年前
主播...
简介...
关注《田丰说》,每天3分钟,掌握全球AI大事件!本视频由商汤“如影”数字人APP生成。
田老师认为,在人工智能的尺度定律中,数据越广、算力越大、则模型越强的趋势规律,推动研发机构追求更大规模、更多元化、更高质量的数据集,全球开发者偏爱免费的开源数据集,而开源数据中蕴含着世界认知、环境特点、文化价值,我国应在开源多模态数据集上加速建设,与美国硅谷缩小差距。
全球AI要闻,全球最大多模态数据集诞生,万亿token规模。
近日,美国华盛顿大学、Salesforce Research、斯坦福大学等机构组成的联合团队构建了一个万亿token级的交织多模态开源数据集MINT-1T,这是目前最大的开源多模态数据集。共包含一万亿文本token和三十亿张图像,包括HTML、PDF、ArXiv等多种不同来源。在 MINT-1T数据集问世之前,该领域最大的开源数据集是OBELICS。为了提高MINT-1T数据质量和安全性,研发团队执行了文本质量过滤、图像过滤、安全过滤、去重等操作。引人注目的是,整个数据处理过程耗费了大约420万个CPU小时数。由MINT-1T混合数据上训练的模型,在全球大多数评测基准得分都优于由OBELICS数据集训练的模型。
每天3分钟,掌握全球AI大事件!《田丰说》全网发布,敬请关注!
评价...
空空如也
小宇宙热门评论...
暂无小宇宙热门评论