Album
时长:
95分钟
播放:
335
发布:
6个月前
主播...
简介...
https://xiaoyuzhoufm.com

本次潜空间邀请了上海交通大学副教授,创智学院导师,清源研究院院长助理,生成式人工智能研究组GAIR负责人刘鹏飞,本次分享的主题是《生成式 AI 的第二幕:认知工程》


💡关于【奇绩潜空间】:


奇绩潜空间是GenAI时代冲得最快的一批科研学者/从业者/创业者聚集的AI人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,如杨植麟、吕聘、闫俊杰等;邀请前沿科研学者分享最新的技术进展,如姚顺雨、蔡天乐等;希望可以为所有GenAI时代的创业者、从业者提供可借鉴、可复制的经验。


文字稿及笔记:奇绩社区内容精选


🎤本期嘉宾:


刘鹏飞是上海交通大学副教授,创智学院导师,清源研究院院长助理,生成式人工智能研究组 GAIR 负责人。专注于自然语言的预训、生成和评估等研究方向,发表学术论文 100 余篇, 被谷歌学术引用 19000 余次。ACL 会议史上首次实现连续两年获得 System & Demo Paper Award,提示工程概念最早提出者之一,单篇引用超过 5000 余次。





⏰时间轴:


02:02 生成式 AI 的第一幕在知识层面遥遥领先,甚至超过人类水平,但是在推理层面相对落后。


07:17 AI的第二幕:从知识工程到认知工程到转变


09:30 第二幕的“深度思考”如何实现?技术路径是什么?智能沿着 Pre-training, Post-training 和 Test-time Scaling 实现跃迁


17:25 在原生数据增长速率无法匹配算力增长的当下,数据工程 2.0 的核心变革是什么?


19:14 合成数据将成为预训练语料 2.0 时代的核心。



  • 19:45预训练语料1.0 时代:以人工筛选为主,方式直接,属于典型的人力密集型操作;1.0时代的语料非常简单,收集工作极其原始且繁重。

  • 20:08 预训练语料1.5 时代:引入了如 FastText 等自动化过滤机制,同时开始借助大模型本身进行筛选;此时模型训练的技术栈已经变得极为复杂,最终目标已不再仅仅是追求 Benchmark 指标,而是聚焦于训练团队在架构设计的合理性, 数据配置的科学性,以至于提高RL Scaling 能力。

  • 22:47 预训练语料2.0 时代:引入了 Reasoning Model 作为数据合成的新维度,整个造数据的过程已经可以由AI自动循环完成了。把推理模型生成的高质量数据加到预训练环节中,效果提升很明显。关键这种提升不是凭借直接 SFT 得来的,而是通过和 RL Scaling 长期配合产生的协同演化,显著加速后续 RL Scaling 收敛速度。


23:51 用策略构建更长更完整的思维链将成为后训练语料 2.0 的关键。



  • 23:56 后训练 1.0 时代的 CoT 不能直接使用,而主要是在扩展数目。2023 年我们的判断,强推理任务至少需要数十万的样本,但现在这一假设已被颠覆:对于 1000 个样本,我们发现其实也可以解决相当的推理问题。

  • 25:12 后训练 2.0 时代,我们已经能够实现 data efficient(数据高效) 的目标,而这依赖于两个关键基础。首先,充足的预训练模型知识。预训练模型需要具备足够的知识储备,以支持复杂的推理任务。这种知识储备为后续的微调和扩展提供了坚实的基础。其次,充分的推理时间和计算资源。即使学生的知识储备足够解决某个复杂问题,如果没有足够的“草稿纸”(即推理时间和计算资源),他们也难以完成任务。因此,提供充足的推理计算能力是实现高效数据利用的关键。


29:15 RL scaling 入门级的教科书级别的 Tech report


访谈环节:


32:31 在很多创业公司或者实验室没有几千张卡集群的情况下,能不能简单介绍一下,如果团队要去做 RL Scaling ,有哪些问题(DPO、PPO等)可能需要阶段性去解决?


36:11 目前如果将国内的 GRPO 作为一类,将 OpenAI 为代表的 PPO 或者 PPO 变种作为另一类,怎么去衡量国内 RL Scaling 跟 OpenAI 的 Scaling 之间的差距?同时这之间的差距有多大?目前国内需要做什么样的突破才能够追上 OpenAI?


38:41 能不能展开讲讲一些基础概念,包括 DPO 的局限性和上限,GRPO 跟 DPO 之间有哪些关联?现在 Open AI 在哪些方面做了调整,使得他能够更加成功?


41:20 DPO 会不会更好复现一些?


41:56 如果你在 OpenAI,你可能会怎么去改变 PPO?


43:27 第一幕时,主要是 Scale data & compute。第二幕中主要 Scale 什么内容?他的迭代逻辑是什么?可以用 OpenAI 的o系列模型为例来探讨。


45:21 你最近有一个很新的发现是关于 Environment,可以简单展开讲吗?


47:42 对于一些难以 verify 的一些问题,该怎么去设计它的奖励模型?


50:21 在你看来,最终的 reward 会是什么呢?


57:37 假如今天给您 30 万美元和一台 H800 让你去创业,你会做什么?


观众 Q&A 环节:


1:01:22 合成数据会不会因为基础模型的预训练数据选择而造成信息茧房?


1:03:22 我们在使用中发现,从 claude 3.5 到 R1 阶段一些旧的提示词没法复用。按照您的说法,未来的迭代如果完全按照 n 和 n +1这种思路,是不是每一个版本的提示词到下一个版本都没法用?


1:05:38 真实数据和合成数据的成本问题,在未来的三到五年到底是一个什么样的走势?


01:09:21 在解决真实世界的问题的时候,AI agent的模型在 tool use 和 take action 的力上还有很多的欠缺,比如 Tau-benchmark,现在整个通过率和正确率都比较低,有什么办法去提升它这方面的能力吗


01:11:52 刚刚提到数据难度的评估没有办法model-agnostic,需要模型回答多次来判断数据难度,那么在数据筛选上的 cost 会不会比较大?怎么能够更高效地识别高质量数据呢?


💡报名活动&加入听友群:


评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧