神馬噔嘻 - 034. Sora技术报告详解：视频生成模型的能力与边界 - EarsOnMe

主播

噔噔咔咖嚓 1 档播客

咚咚噼喱啪 1 档播客

嘻嘻嘻嘻嘻嘻嘻嘻嘻嘻 1 档播客

节目简介

来源：小宇宙

Sora视频生成原理讲解，想听正题的朋友们可以直接进入11:00 分钟开始收听👂

节目速听⏳

1:21 上期内容回顾：什么是VIT，什么是VAE？
2:10 VAE的V是啥？
6:00 diffusion是啥意思？
8:32 高斯分布在diffusion里的作用
10:57 Sora正题
11:30 image to video
11:53 image to video的局限性：不能保证一致性和连贯性
12:18 diffusion和其他生成图片的模型的区别在哪里？
13:10 为什么传统的模型能力如此有限？
13:41 根据噪声的不同有不同的应用场景：老照片上色，生成高分辨率图片或视频，补图，成人电影去马赛克
19:23 生成视频和生成图片相比难在哪里？
21:28 通过加含有timestamp的语言描述获得关键帧，然后进行补帧
23:58 为啥生成长视频这么难？
28:38 video native的生成方式
29:51 sora的问题是什么？
30:21 数据和模型的尺寸带来的问题
31:43 pika的问题不是独立的，是diffusion model本身不会去识别一个物体，物体对模型来说只是像素点
33:18 Sora是一个用VIT在做diffusion过程的模型
34:53 sora技术报告的细节：把时间维度一起切块
35:36 视频生成模型的各种能力
38:30 sora的奇妙之处
39:42 sora是一个video native的模型，不是一个语言到视频的模型
41:14 以一分钟视频为例，想象一下sora有多大
42:25 基于视频的VIT由于带有时间维度的信息所以能达到连贯
43:16 sora可能是不可变长不可变速的
45:39 Open AI和Nvidia的合作以及对英伟达股价的预测
47:22 视频变长到底是不是一个难题？生成一分钟和两分钟视频之间的gap有多大
50:06针对Sora会产生哪些新的prompt
53:37 对Sora的应用场景的初步想象

👂进听友群

添加微信：wonderhow520 (备注小宇宙进群）

🎙️本期嘉宾

小石子儿+噔噔+比巴卜

📻本节目收听方式

苹果播客｜小宇宙｜Google Podcast

034. Sora技术报告详解：视频生成模型的能力与边界

节目速听⏳

👂进听友群

添加微信：wonderhow520 (备注小宇宙进群）

📻本节目收听方式

加入我们的 Discord

扫描微信二维码

播放列表