作为 Luma AI 首席科学家和最早扩散模型加速算法的创建者,「宋佳铭 Jiaming Song 」在奇绩潜空间中分享了他对于微调视频模型以实现 4D 内容生成的探索思路,并通过讲解 Luma AI 在视频生成模型 DreamMachine 上的探索,说明了模型可以从视频数据中学到大量关键的三维特性。
💡关于「奇绩潜空间」:
我们找到了 GenAI 时代冲得最快的一批创业者 / Researchers ,如月之暗面(Moonshot AI)创始人杨植麟、AI 硬件 Rabbit-R1 创始人吕骋等,来分享自己的亲身经历和见解,希望可以为所有 GenAI 时代的创业者、从业者提供可借鉴、可复制的经验。
过去分享文字稿:奇绩社区内容精选
🎙️本期嘉宾:
宋佳铭 : Luma AI 首席科学家,斯坦福大学计算机科学博士、博士后。曾任职英伟达(DIR)小组科学家 ,创建了最早的扩散模型加速算法,该算法广泛用于最近的生成式 AI 系统,包括 DALL-E 2、Imagen、Stable Diffusion 和 ERNIE-ViLG 2.0。
⏰时间轴
00:25 从 Diffusion 诞生到现在,视频生成领域有哪些重要的里程碑,这些里程碑发生的背后逻辑或动机是什么?
04:54 目前主流的研究者在进行视频理解和视频生成时,分别采用了什么样的技术路径?
05:23 从人和自然的角度,理解和生成是如何被分开的?其背后的机制是否相同?
06:36 在理解层面,多模态模型有 Late Fusion 和 Early Fusion 两条路径。你怎么看这两件事情在不同的场景下的区别,它们的优势和劣势是什么?
07:49 无论是 Early Fusion 还是目前使用的 DIT,大家都在期待 Auto-regressive 和 Diffusion 能更好地结合,你认为接下来的发展趋势可能是什么样的?
09:15 你当时做 diffusion 加速的时候,灵感来源于什么?
11:46 关于 4D 数据的收集,目前有用到模拟器合成数据吗?在自动驾驶领域,这类数据的重要性与其他领域有何不同?
14:17 DIT 的 scale 大概什么时候能出现?DIT 的参数大概能够达到一个什么范围?
16:21 明年下半年,如果要生成一段1080P、30秒的视频,所需的时间和成本可能是怎样的?那时的视频质量能否达到完全逼真的程度?
👉本周六 线下潜空间预告
主题:多模态大模型:以视觉为中心的探索
嘉宾:童晟邦,纽约大学计算机科学院博士,师从 Yann LeCun 教授和 Saining Xie 教授。他曾在伯克利人工智能实验室(BAIR)担任研究员,目前正在 Meta 暑期实习,近期获得了 OpenAI 超对齐奖学金
活动时间:北京时间 8月24日 10:00-13:00
活动地点:北京线下 / 上海线下 / 线上 均有场次
🙋活动报名 & 听友群,欢迎扫码加小助手:
空空如也
暂无小宇宙热门评论