Album
时长:
54分钟
播放:
121
发布:
1年前
简介...
https://xiaoyuzhoufm.com

Sora视频生成原理讲解,想听正题的朋友们可以直接进入11:00 分钟开始收听👂

节目速听⏳

  • 1:21 上期内容回顾:什么是VIT,什么是VAE?

  • 2:10 VAE的V是啥?

  • 6:00 diffusion是啥意思?

  • 8:32 高斯分布在diffusion里的作用

  • 10:57 Sora正题

  • 11:30 image to video

  • 11:53 image to video的局限性:不能保证一致性和连贯性

  • 12:18 diffusion和其他生成图片的模型的区别在哪里?

  • 13:10 为什么传统的模型能力如此有限?

  • 13:41 根据噪声的不同有不同的应用场景:老照片上色,生成高分辨率图片或视频,补图,成人电影去马赛克

  • 19:23 生成视频和生成图片相比难在哪里?

  • 21:28 通过加含有timestamp的语言描述获得关键帧,然后进行补帧

  • 23:58 为啥生成长视频这么难?

  • 28:38 video native的生成方式

  • 29:51 sora的问题是什么?

  • 30:21 数据和模型的尺寸带来的问题

  • 31:43 pika的问题不是独立的,是diffusion model本身不会去识别一个物体,物体对模型来说只是像素点

  • 33:18 Sora是一个用VIT在做diffusion过程的模型

  • 34:53 sora技术报告的细节:把时间维度一起切块

  • 35:36 视频生成模型的各种能力

  • 38:30 sora的奇妙之处

  • 39:42 sora是一个video native的模型,不是一个语言到视频的模型

  • 41:14 以一分钟视频为例,想象一下sora有多大

  • 42:25 基于视频的VIT由于带有时间维度的信息所以能达到连贯

  • 43:16  sora可能是不可变长不可变速的

  • 45:39 Open AI和Nvidia的合作以及对英伟达股价的预测

  • 47:22 视频变长到底是不是一个难题? 生成一分钟和两分钟视频之间的gap有多大

  • 50:06针对Sora会产生哪些新的prompt

  • 53:37 对Sora的应用场景的初步想象

👂进听友群

添加微信:wonderhow520 (备注小宇宙进群)

🎙️本期嘉宾

小石子儿+噔噔+比巴卜

📻本节目收听方式

苹果播客|小宇宙|Google Podcast

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧