Album
时长:
109分钟
播放:
610
发布:
9个月前
主播...
简介...
https://xiaoyuzhoufm.com

本次潜空间邀请了Meta 助理研究员以及Physics of LLM 作者【叶添】,本次分享的主题是《解密大语言模型推理机制——超越人类的二级推理》


💡关于【奇绩潜空间】:


奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。


本期笔记以及PPT:奇绩社区内容精选


🎤本期嘉宾:


叶添是清华大学姚班,卡内基梅隆大学博士生,Physics of LM 2.1 和 2.2 作者,于 Meta 任助理研究员(Research Scientist Intern)。研究兴趣主要集中在大语言模型的推理机制。曾在顶级会议 NeurIPS 上发表研究论文。此外,曾两次进入中国数学奥林匹克竞赛国家集训队。


⏰时间轴:


03:31-人工合成数据集IGSM效果和思路介绍


14:22-IGSM是如何生成的?


24:44-模型会犯错的原因、解决方案以及从中得到的启示


33:34-如何教会模型自己改正错误?


47:54-Q&A环节:



  • 47:54-大模型探索阶段的工作与未来方向

  • 53:55-什么原因导致按照先简单后复杂的顺序训练模型有时效果不好?

  • 59:58-Physics of LLM在实际应用中使用了多少算力?

  • 1:08:46-如何定义推理能力?

  • 1:12:24-如何寻找没有出现在预训练语料里面的能力

  • 1:18:19-解决数学问题的能力是否完全等价于推理能力?

  • 1:21:49-在预训练以及后训练阶段怎样提升模型推理能力?

  • 1:29:23-简单的结构化和依赖检索方法是否可行?

  • 1:40:44-如何让大模型理解复杂业务的SQL?

  • 1:46:28-为什么大模型很难评估自己是否犯错?


💡下期预告:


主题:多模态大模型与智能agent的训练与实践:打造自动化驱动的智能化未来


嘉宾:刘琦,香港大学计算机科学系助理教授,Reka AI联合创始人,领导Reka AI多模态大模型的训练与落地,英国牛津大学计算机科学博士,新加坡国立大学硕士。曾在Google DeepMind、Facebook AI Research和微软研究院工作,曾获福布斯亚洲“30岁以下30人”和AI2000人工智能全球最具影响力学者等奖项。


活动时间:1月18日 11:00-12:30


活动地点:北京线下/上海线下/线上均有场次


欢迎关注奇绩,报名活动及加入听友群请添加小助手:


评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧