简介...
https://xiaoyuzhoufm.com

在我们录制的当天,恰逢OpenAI发布其视频生成产品Sora。本期节目,我们将结合硅谷101播客与视频的日常工作流,来聊一聊那些在我们工作中会用到的各类AI工具,为何Sora会让人觉得惊艳?



我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品,但最后的核心结论是,相比于现阶段的生成式AI产品,我们更愿意用版权库素材。具体发生了什么,来听一听我们的讨论吧。



当然,本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法,欢迎在评论区跟我们留言。



《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营,欢迎感兴趣的小伙伴来给我们投放简历,详细情况请在硅谷101公众号上查看



【主播】

泓君,硅谷101创始人,播客主理人

【嘉宾】

陈茜,硅谷101联合创始人,视频主理人

Jacob,硅谷101视频后期

Junwu Zhang,硅谷101研究员



【你将听到】

视频生成

03:06 比较Sora、Pika Labs、Runway的视频生成效果:时间越长一致性越差

08:14 Sora解析:东京街头背景保持高度一致有多难?

09:51 硅谷101视频的三类素材:历史素材、图表、动画,AI都很难生成

12:40 仅用语言描述生成视频很难,输入也需要多模态

16:44 AI是创作者还是剪辑师的工具?很难被打败的顶级作品

23:09 算法瓶颈:天马行空式生成反而落入俗套?



平面设计

24:39 为什么说Midjourney还没有颠覆素材库?

26:17 附产品:让人惊艳的AI扩图



声音克隆

30:32 比真人替换效果更好的11Labs:音频替换与复原罗斯福总统的声音

35:06 OpenVoice精准还原普通话音调

37:39 真实录音被当作配音:AI克隆声音界限越来越难区分



AI作曲

39:02 谷歌Music FX作曲 PK 素材库音乐,三曲Demo你更喜欢谁?

45:05 创作者的最大痛点:当音乐长度可以自动调整适配片头

50:17 当小工具遇到大公司:软件学习门槛高,更倾向于做大公司的小插件



内容生成

55:05 ChatGPT如何帮助我们快速查资料:在一本400页的小说中找到代糖的初代焦虑

57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联

59:50 我们的内容制作步骤拆解:ChatGPT并不是一个好的提纲撰写者

68:54 写Shownotes的三个要点,GPT只进化到了第一层



【后期】

Amei

【BGM】

Sushi Master - Sight of Wonders

On a Boat to China - Sight of Wonders



【在这里找到我们】

公众号:硅谷101

收听渠道:苹果|小宇宙|喜马拉雅|蜻蜓FM|网易云音乐|QQ音乐|荔枝播客

海外用户:Apple Podcast|Spotify|TuneIn|Youtube|Amazon Music

联系我们:[email protected]

主播...
评价...

空空如也

小宇宙热门评论...
硅谷101陈茜
1年前 美国
31
这期节目在我家录制,家里有只很调皮的萨摩耶一直在叫,偶尔背景声会听到,已经扣了狗罐头,还请大家多多谅解🐶🐶
Diiiiiiiii
1年前 北京
11
比较喜欢听这种一线从业者的亲身使用体验,比较真实接地气。整个听下来的感觉,对于 creator 来说,AI 类工具的渗透率还比较低,可用性还不够强: - 视频素材生成:目前不太可用。画面内容过于 general,不可控,时长太短,对 Sora 有一定期待,主要是物理模拟显得更真实了。但从需求的角度来看,视频制作的素材需求包括:真实历史画面(不需要生成)、动画讲解(包括数据图标、科普原理等,目前无法生成)、通用的表意素材(这部分目前或许可以用到,但效果上不如图库)。一个根本问题是,用文字(text to video)很难把需求描述清楚,最好是能够通过画一些示意图的方式来表达; - 图片素材生成:可以用,但目前生成的成本高于使用图库的成本,并且各大图库也都在整合 AI,期待未来能做更多的 custimazation; - 声音克隆:可用性较强,可以达到嘴替水平,但对中文的支持不够好(据说 openvoice 的中文克隆效果不错); - 背景音乐生成:勉强可用,好处是可以免去版权成本,并且支持时长上的定制,但需要使用者能够有一定的音乐素养,可以用文字描述需求,效果上不如素材库; - 访谈前调研及文字大纲生成:调研部分,对常识类调研来说,使用 AI 可以节约一些时间,但对于准确性要求较高、专业性较强的内容,由于幻觉,还是不太敢用。大纲生成只能达到 average 水平,无法满足高水平内容创作的需求。 无论技术多牛,最终用户体验才是试金石,用户会用脚投票。产品价值 = 新体验-旧体验 -迁移成本,目前这期听下来,现有工具的产品价值似乎还是负的,不足以造成用户迁移。“有点用,但似乎又没那么有用,尝鲜之后难以持续”,这似乎是当前 2B、2C 的大部分场景的真实现状。 当然,AIGC 还在早期,会先在一些特定场景下把价值打正。Just wait and hope.
泰格杨
1年前 北京
5
是用哪些版权库呢?以前没有接触过
桃奈小安
1年前 福建
2
沙发
红房子粉刷匠
1年前 广东
2
用样片音乐生产音乐,样片音乐应该也要买版权吧。这个和在app里听音乐只付会员费性质还是不一样吧。
gpCigqFeC52
1年前 未知
2
框架和要点还是要自己想,解释扩展和分析可以用ChatGPT
有道_ENFn
1年前 江苏
2
谢谢分享,跟之前硅谷101的内容形式挺不一样的,没有了外部嘉宾,反而有些意外的收获,能从一线创作者的用户视角看ai应用。希望类似讲内容生产流程的节目隔一段时间能做一期,几期下来做对比应该会很有趣,应该能看到ai工具的进化和内容制作方式的演化。
老王搁这圪蹴
1年前 广东
2
Jacob老师考虑开Ai培训班吗,图像和视频方面的ai实际应用,自媒体人十分需要!
不太冷静_6yH8
1年前 四川
1
用chatgpt 做作业正确率百分之五十几,我自己做还有百分之六十几呢😤
吞不须
1年前 浙江
1
42:23 拉斯维加斯球音乐这一部分燃起来了
乐_冰
1年前 北京
1
可以用不同的模型互相cross check结果
嬴嬴嬴
1年前 湖北
1
为什么删我评论?哪句话让博主破防了?
Kevin_cWol
1年前 上海
1
11:41 夹英文就好好夹…夹完再翻译一下真听得太难受了
Junpero_清肝润肺
1年前 上海
1
33:39 国内有大模型可以克隆语音了
Joya丹
1年前 上海
0
50:46 这个缝合过度音乐的功能比较适合loop 类的背景音乐,嗯需要对画面情绪就不够用了
ZC_gQKi
1年前 广东
0
这嘉宾比什么徐梧不强多了吗 不装逼 言之有物 无自high
未月明
1年前 浙江
0
版权问题怎么办?怎么说?喂的图片有版权吗?
xcccc
1年前 中国香港
0
43:03 更喜欢最后使用的这首诶
Elvis928
1年前 新疆
0
你们还有视频,在哪可以看到?
cjl69
1年前 广东
0
36:20 试下 剪影的 音色克隆 很厉害
EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧