硅谷101 - E141｜我们用了10款AI工具，最后又回到了版权库 - EarsOnMe

硅谷101
E141｜我们用了10款AI工具，最后又回到了版权库

时长：

74分钟

播放：

2.7万

发布：

1年前

主播...

泓君Jane

简介...

在我们录制的当天，恰逢OpenAI发布其视频生成产品Sora。本期节目，我们将结合硅谷101播客与视频的日常工作流，来聊一聊那些在我们工作中会用到的各类AI工具，为何Sora会让人觉得惊艳？

我们试用了Runway、PikaLabs、Gemini、Midjourney、Adobe Premiere、Eleven Labs、OpenVoice、Music FX、ChatGPT、Claude.ai等至少十款产品，但最后的核心结论是，相比于现阶段的生成式AI产品，我们更愿意用版权库素材。具体发生了什么，来听一听我们的讨论吧。

当然，本期节目也只是我们自己在工作中的一些感受。如果大家还有哪些好玩的工具或者用法，欢迎在评论区跟我们留言。

《硅谷101》正在招聘播客监制、视频创意策划总监、视频后期以及运营，欢迎感兴趣的小伙伴来给我们投放简历，详细情况请在硅谷101公众号上查看。

【主播】

泓君，硅谷101创始人，播客主理人

【嘉宾】

陈茜，硅谷101联合创始人，视频主理人

Jacob，硅谷101视频后期

Junwu Zhang，硅谷101研究员

【你将听到】

视频生成

03:06 比较Sora、Pika Labs、Runway的视频生成效果：时间越长一致性越差

08:14 Sora解析：东京街头背景保持高度一致有多难？

09:51 硅谷101视频的三类素材：历史素材、图表、动画，AI都很难生成

12:40 仅用语言描述生成视频很难，输入也需要多模态

16:44 AI是创作者还是剪辑师的工具？很难被打败的顶级作品

23:09 算法瓶颈：天马行空式生成反而落入俗套？

平面设计

24:39 为什么说Midjourney还没有颠覆素材库？

26:17 附产品：让人惊艳的AI扩图

声音克隆

30:32 比真人替换效果更好的11Labs：音频替换与复原罗斯福总统的声音

35:06 OpenVoice精准还原普通话音调

37:39 真实录音被当作配音：AI克隆声音界限越来越难区分

AI作曲

39:02 谷歌Music FX作曲 PK 素材库音乐，三曲Demo你更喜欢谁？

45:05 创作者的最大痛点：当音乐长度可以自动调整适配片头

50:17 当小工具遇到大公司：软件学习门槛高，更倾向于做大公司的小插件

内容生成

55:05 ChatGPT如何帮助我们快速查资料：在一本400页的小说中找到代糖的初代焦虑

57:13 溯源ChatGPT的知识性硬伤——令人哭笑不得的关联

59:50 我们的内容制作步骤拆解：ChatGPT并不是一个好的提纲撰写者

68:54 写Shownotes的三个要点，GPT只进化到了第一层

【后期】

Amei

【BGM】

Sushi Master - Sight of Wonders

On a Boat to China - Sight of Wonders

【在这里找到我们】

公众号：硅谷101

收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客

海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music

联系我们：[email protected]

评价...

空空如也

小宇宙热门评论...

硅谷101陈茜

1年前美国

这期节目在我家录制，家里有只很调皮的萨摩耶一直在叫，偶尔背景声会听到，已经扣了狗罐头，还请大家多多谅解🐶🐶

Diiiiiiiii

1年前北京

比较喜欢听这种一线从业者的亲身使用体验，比较真实接地气。整个听下来的感觉，对于 creator 来说，AI 类工具的渗透率还比较低，可用性还不够强： - 视频素材生成：目前不太可用。画面内容过于 general，不可控，时长太短，对 Sora 有一定期待，主要是物理模拟显得更真实了。但从需求的角度来看，视频制作的素材需求包括：真实历史画面（不需要生成）、动画讲解（包括数据图标、科普原理等，目前无法生成）、通用的表意素材（这部分目前或许可以用到，但效果上不如图库）。一个根本问题是，用文字（text to video）很难把需求描述清楚，最好是能够通过画一些示意图的方式来表达； - 图片素材生成：可以用，但目前生成的成本高于使用图库的成本，并且各大图库也都在整合 AI，期待未来能做更多的 custimazation； - 声音克隆：可用性较强，可以达到嘴替水平，但对中文的支持不够好（据说 openvoice 的中文克隆效果不错）； - 背景音乐生成：勉强可用，好处是可以免去版权成本，并且支持时长上的定制，但需要使用者能够有一定的音乐素养，可以用文字描述需求，效果上不如素材库； - 访谈前调研及文字大纲生成：调研部分，对常识类调研来说，使用 AI 可以节约一些时间，但对于准确性要求较高、专业性较强的内容，由于幻觉，还是不太敢用。大纲生成只能达到 average 水平，无法满足高水平内容创作的需求。无论技术多牛，最终用户体验才是试金石，用户会用脚投票。产品价值 = 新体验-旧体验 -迁移成本，目前这期听下来，现有工具的产品价值似乎还是负的，不足以造成用户迁移。“有点用，但似乎又没那么有用，尝鲜之后难以持续”，这似乎是当前 2B、2C 的大部分场景的真实现状。当然，AIGC 还在早期，会先在一些特定场景下把价值打正。Just wait and hope.