Album
时长:
47分钟
播放:
503
发布:
1年前
简介...
https://xiaoyuzhoufm.com

端午快乐~ 很开心,这期又可以和大家聊聊硬核的 GenAI 技术内容。最近和 AI 创业者们交流最多的话题就是 AI 数据。因此,本期节目我们特别邀请了两位在 AI 数据领域颇有建树的嘉宾:杨子敖,Brandeis CS PhD Candidate;刘明皓,整数智能信息技术(杭州)有限责任公司的算法负责人。一起聊了一下他们多年来在这方面积累的经验和认知,深入讨论了如何为大模型训练和推理构建高质量的数据集,以及如何搭建智能数据工程平台。


如果你对数据处理感兴趣,或者是一位充满好奇心的 AI 从业人员,我们希望通过这期节目为你带来关于 AI 和数据的新看法和启发。欢迎收听~


嘉宾介绍:


杨子敖 Brandeis CS PhD Candidate,曾在奇绩创坛和IDEA研究院工作过。目前的研究兴趣是Data centric ML,特别是基于influence function和Shapley value的Data Valuation。


刘明皓,整数智能信息技术(杭州)有限责任公司算法负责人。中国人工智能产业发展联盟2022年突出贡献个人,《人工智能研发运营一体化(Model/MLOps)能力成熟度模型》核心参编专家,MAP-NEO Core Contributor。


主播介绍:


Leo Zhao: 硅谷大厂高级机器学习工程师,GenAI LLM发烧友


Shownotes


00:30 - 嘉宾自我介绍


02:27 - 讨论 OpenAI 发布的 Scaling Laws 对模型性能的影响


02:59 - 探讨评估模型性能的主要指标和方法


03:48 - 模型性能衡量标准,介绍学术界常用的 Benchmark 和其他评估方法


04:49 - 分享如何评估知识型模型的效果


05:35 - 不同的 Scaling Laws 数据量的建议


07:05 - 介绍高质量数据的定义及其处理方法


08:57 - 讨论数据清洗过程中质量与多样性的平衡


09:58 - 解释数据质量如何具体影响模型训练效果


12:00 - 讨论如何评价模型的响应质量。


13:48 - 探讨处理具体应用场景数据的方法和建议


16:09 - 解释行业特定数据和 Prompt Engineering 的重要性


18:20 - 讨论在敏感领域处理数据时的隐私问题


21:22 - 介绍合成数据在模型训练中的应用和效果


23:14 -讲述如何在不同产业中扩展数据处理管道


26:48 - 解释保持数据集新鲜和相关性的周期更新策略


29:16 - 探讨验证数据集在模型评估中的关键作用


32:28 - 分享长文本数据在训练和验证中的处理方法


36:46 - 介绍自动驾驶数据的收集和处理流程


42:08 - 讨论数据壁垒的未来和数据共享的可能性


参考文献:


构建高质量数据集与智能数据工程平台


https://github.com/multimodal-art-projection/MAP-NEO


https://arxiv.org/pdf/2405.19327


2077ai.com


感谢收听,我们下期再见!

评价...

空空如也

小宇宙热门评论...
FIT
1年前 上海
1
开源项目链接放一下,搜索嘉宾也没找到
momo_W4jW
11个月前 上海
0
04:01 评估模型性能
Leo宸
1年前 美国
0
顶!
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧