Sora视频生成原理讲解,想听正题的朋友们可以直接进入11:00 分钟开始收听👂
节目速听⏳
1:21 上期内容回顾:什么是VIT,什么是VAE?
2:10 VAE的V是啥?
6:00 diffusion是啥意思?
8:32 高斯分布在diffusion里的作用
10:57 Sora正题
11:30 image to video
11:53 image to video的局限性:不能保证一致性和连贯性
12:18 diffusion和其他生成图片的模型的区别在哪里?
13:10 为什么传统的模型能力如此有限?
13:41 根据噪声的不同有不同的应用场景:老照片上色,生成高分辨率图片或视频,补图,成人电影去马赛克
19:23 生成视频和生成图片相比难在哪里?
21:28 通过加含有timestamp的语言描述获得关键帧,然后进行补帧
23:58 为啥生成长视频这么难?
28:38 video native的生成方式
29:51 sora的问题是什么?
30:21 数据和模型的尺寸带来的问题
31:43 pika的问题不是独立的,是diffusion model本身不会去识别一个物体,物体对模型来说只是像素点
33:18 Sora是一个用VIT在做diffusion过程的模型
34:53 sora技术报告的细节:把时间维度一起切块
35:36 视频生成模型的各种能力
38:30 sora的奇妙之处
39:42 sora是一个video native的模型,不是一个语言到视频的模型
41:14 以一分钟视频为例,想象一下sora有多大
42:25 基于视频的VIT由于带有时间维度的信息所以能达到连贯
43:16 sora可能是不可变长不可变速的
45:39 Open AI和Nvidia的合作以及对英伟达股价的预测
47:22 视频变长到底是不是一个难题? 生成一分钟和两分钟视频之间的gap有多大
50:06针对Sora会产生哪些新的prompt
53:37 对Sora的应用场景的初步想象
👂进听友群
添加微信:wonderhow520 (备注小宇宙进群)
🎙️本期嘉宾
小石子儿+噔噔+比巴卜
📻本节目收听方式
苹果播客|小宇宙|Google Podcast
空空如也
暂无小宇宙热门评论