002. 和龚珊三、姚锦炜聊聊扩散语言模型
AI实话实说

002. 和龚珊三、姚锦炜聊聊扩散语言模型

126分钟 650 4个月前
节目简介
来源:小宇宙

大家熟悉的语言模型,比如 chatgpt ,采取的是自回归(autoregressive,AR)的生成方式,一句话从第一个字开始,一个字一个字地生成,一直到最后一个字。

Diffusion 语言模型,扩散语言模型,则没有严格的顺序,也没有一次生成字数的限制,每一次可以在句子的各个位置生成任意数量的文字。所以它被叫做非自回归(non autoregressive)。

扩散语言模型正在受到学术界和工业界的极大关注。

本期 AI 实话实说,我们邀请了龚珊三,姚锦炜两位参与过 diffusion LM 研究和开发工作的同学,共同探讨扩散语言模型的过去、现在和将来。

珊三是港大博士生,从 22 年起深耕 diffusion LM,发表了早期有代表性的 diffusion LM Diffuseq,提出了将自回归语言模型转化为 diffusion LM 的方法,还在 Apple 训练了 7B 用于代码生成的 DiffuCoder。

锦炜是UIUC 硕士生,研究大模型的并行生成,同时是 SGLang diffusion LLM team的核心成员。他在和蚂蚁集团的团队合作,将蚂蚁近期发布的第二代 LLaDA,参数量达到 1000 亿的目前最大的 diffusion LM 整合进了 SGLang 框架,让开源社区得以高效部署这一模型。

欢迎关注节目同名小红书 “AI实话实说” 加入群组,关注同名微信公众号获取文字内容。

嘉宾小红书:Sansa (496274944)

快速跳转精彩内容:

00:01:00 扩散语言模型简介

00:02:24 龚珊三自我介绍

00:04:18 姚锦炜自我介绍

00:07:49 哪些要素是 diffusion LM 必要的?

00:10:56 diffusion LM 三要素

00:12:39 包含自回归要素的 diffusion LM 是修正主义吗?

00:15:21 以前名字千奇百怪,现在为啥都叫 diffusion LM 了?

00:20:11 现在哪些学校或者公司做 diffusion LM?为什么?

00:25:10 OpenAI 在做 diffusion LM 吗?

00:26:41 为什么 OpenAI 很多人是 Diffusion 黑子?

00:31:18 大家不愿意做 diffusion,是因为还没看到它的前景吗?

00:33:42 蚂蚁集团为什么要做 diffusion LM?

00:36:40 为什么大家从连续 diffusion LM 转向离散的?

00:39:23 把 LM 做成非自回归,把图像生成自回归,这是没活硬整吗?

00:44:21 从哲学上为什么说非自回归比自回归更有未来?

00:46:44 锦炜为什么不在乎 diffusion LM 赢不赢?

00:52:40 diffusion 对于语言数据天然有局限性吗?

00:59:40 自回归为语言数据规定了  生成顺序,是不是违背了 the bitter lesson?

01:09:43 陈立杰老师分析 diffusion 理论上限,有何意义?

01:16:43 自回归语言模型的巨大成就是否限制了 diffusion LM 研究的空间?

01:24:29 如何公平比较自回归 LM 和 diffusion LM?

01:29:23 如何看待除了 diffusion 以外的并行生成方式?

01:35:24 diffusion LM 目前适合用在哪里?

01:45:23 diffusion LM 最大的问题是什么?

01:48:46 ChatGPT 对你们的科研产生了什么影响?

01:54:30 diffusion LM 如果未来没成功,你怎么办?

01:59:17 AGI 会把我们都干掉吗?

术语对照表:

NAT - non-autoregressive translation - 非自回归翻译

AR - autoregressive - 自回归

Diffusion LM - diffusion language model - 扩散语言模型

两位嘉宾的个人主页:

summmeer.github.io

kivi-yao.github.io

讨论到的论文和资料:

珊三对于 diffusion LM 的总结

锦炜参与的 SGLang Diffusion LM 引擎

非自回归翻译

从生成顺序看 diffusion 模型的局限性

diffusion 的学习效率比自回归更高

diffusion LM 的理论上限分析

parallel generation calls are not isolated-- they have sharing pattern to accelerate

sequential prefill can be parallelized

multiverse--parallel generations for better test time scaling

dLLMm for drafting:  tidarlm.github.io and z-lab.ai/projects/dflash/

dLLM caching from NVIDIA:  github.com/NVlabs/Fast-dLLM


在小宇宙查看该单集文稿

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧