晚点聊 LateTalk - 59: AI 3D 生成会有“抖音时刻”吗？与 VAST 聊人人玩 3D 的未来

晚点聊 LateTalk
59: AI 3D 生成会有“抖音时刻”吗？与 VAST 聊人人玩 3D 的未来 | AI 大爆炸

时长：

48分钟

播放：

5,733

发布：

1年前

主播...

简介...

本期是《晚点聊》「AI 大爆炸」系列第二期节目。我们关注 AIGC 领域里的 3D 图形生成。

这期的嘉宾是 2023 年初成立的 AI 3D 生成公司 VAST 的创始人、CEO 宋亚宸和 VAST CTO 梁鼎。

去年 10 月上线的热门 Github 开源项目 Wonder3D 背后就有 VAST 团队的贡献。

VAST 也刚刚在 2023 年 12 月上线了第一个产品 Tripo，这是一个可以用文字描述和图像生成 3D 模型的 Web 端产品，（网址：https://www.tripo3d.ai/）测试阶段可免费试用。目前用户在 Tripo 上已生成了 30 多万个 3D 模型。

宋亚宸同时是一位非常年轻的创始人，他出生于 1997 年，毕业于约翰斯·霍普金斯大学。在创立 VAST 之前，曾在商汤和 MiniMax 工作；梁鼎之前则在商汤担任通用模型负责人，毕业于清华大学。

VAST 团队对未来的一个设想是：3D 内容会重复文字、图像、视频之路，从 3A 内容，即需要 a lot of people, time and money 的高门槛内容变成人人都能方便地创作和消费的内容。

第一步是有大众级的 3D 生成工具，第二步是 3D 内容平台。前者的成熟是 3D 生成的 ChatGPT 或 Midjourney 时刻。后者我们可以称他为“抖音时刻”。

这是一个可以数年后回看以验证的想法。希望这期节目只是一个微小的开端。

本期节目我们聊了：

创业故事 & 第一款产品 Tripo

01:51-为何在 3D 领域创业？——看到 3D 内容平台机会，第一步是做大众级 3D 生成工具。

07:16-Tripo 背后使用了多种模型结构，有 Diffusion 也有 Transformer。大语言模型是用端到端的一个模型完成任务，而 3D 生成目前是多种模块组合。

12:25-当前 3D 生成与文字和 2D 图像的一大区别是，后者有业界通用的表示方式，如 2D 图形是矩阵，而 3D 图形的最佳表示方式还在探索中。

13:13 -Mesh、NeRF 等 3D 表示（3D representation）指什么？

Midjourney 时刻和抖音时刻如何到来？

14:32-3D 生成效果到了相当于文生图应用 Midjourney V4、V5 的水平，是工具成熟的里程碑。这可能发生在 2024 年底到 2025 年初。

16:37-用户也需要存储、托管、分享和展示 3D 内容的平台。VAST 正在内测一个 3D 内容托管平台。

19:37-现在已有很多业余 3D 内容制作者，但没有分享、展示渠道。

22:49-用户的玩法举例：造一个 3D 鬼屋，请朋友来被吓。

23:55-这个平台目前是一个 PC 客户端，未来会考虑做 XR App。

27:11-总结：3D 生成效果达到 Midjourney V5 水平，是工具成熟的时刻；内容平台爆发的关键则是出现一种新的 3D 内容范式——一种可被跟风、模仿的 UGC 内容。

28:52-这件事可能发生在头显成熟前，头显成熟是充分不必要条件。

当前的竞争

31:31-大小公司都在做 3D 生成工具。VAST 的差异之处：做大众级工具，而不是替代现在的主流 3D 软件。

32:50-3D 生成是一个新领域，而且是华人团队不落后于美国团队的领域。

34:11-希望更多人用 Tripo，也用竞品，更多人体验 3D 内容生成。

36:26-VAST 掌握了大量 3D 原生数据集。

37:43-3D 内容生成的远期壁垒在产品和社区、开发者运营。

38:04-开发者自己玩出的例子：Tripo Go，可以让不同人生成的不同 3D 模型对战。

AI 潮里的年轻创始人

41:18-移动互联网领域，一批创始人起步于 25-30 岁。

42:30-VAST 是一个创始人很年轻，核心团队成员也有不少老炮的公司。

43:06-一个公司为什么能聚集多个以前自己创过业的人？

45:05-连续创业者能提前避坑，年轻人敢冲。

相关阅读：

Tripo 3D 生成 Web 版：https://www.tripo3d.ai/

Tripo Discord: https://discord.gg/chrV6rjAfY

Tripo Twitter/Youtube: @tripoai

节目中提到的 3D 互动内容 Tripo Go：tripogo.holymolly.ai（可在手机上玩）

本期节目中出现的技术、公司等名词：

·一些 3D 表示（3D representation）：Mesh、NeRF、Gaussian Splatting、SDF

3D 表示是以某种形式表达 3D 对象或场景的几何形状、纹理、材质和光照等信息，可以是数学模型、数据结构或其他形式的描述，常见的有多边形表格（Mesh）、点云、体素（voxels）、参数化表面等。

·Diffusion：文生图领域的主流模型，被 Midjourney、Stability AI 等公司使用。

·一些大公司发布的 3D 生成模型或成果：DreamFusion（Google），Point-E、Shape-E（OpenAI），Magic 3D、Get 3D、（英伟达），3DGen（meta）。

·该领域创业公司：Luma AI、Meshy

·一些3D行业常用的DCC（Digital Content Creation）软件：ZBrush、Blender、3DsMax、Houdini、Maya。

登场人物：

宋亚宸：VAST 创始人、CEO

梁鼎：VAST CTO

更多信息或合作可联系：微信/即刻/Twitter: whyvirtualsiena

程曼祺：晚点科技报道负责人。即刻：程曼祺_火柴Q

剪辑：甜食

封面：Tripo 生成的 avocado chair “鳄梨椅”

评价...

空空如也

小宇宙热门评论...

小田仙人

1年前云南

1.3D抽卡建模完全不能算是内容创作者，只能算社区污染者 2.达到v2.5水平那绝对是吹nb了 3.如果我真需要这么一个社区，我为啥不用sketchfab呢？你们训练也没少从这上面偷模型吧。4.mdj也好 SD也罢，现在的使用者基本还是从业者，没有哪个图片社交社区里AI图是主流，哪怕发出来也都是有商业目的，根本没有自发性。

梨飒

1年前浙江

持续看好3D内容的发展，这个发展会被大众级的创作工具加速，从而催生一系列变化（变化带来机会，我爱变化！），很难让人不激动！

尊介

1年前北京

还是没有想清楚3D的应用场景和商业模式，有了工具不代表会产生平台，抖音之前短视频这个赛道机会被各个公司放弃了，直到抖音打造出好的商业模式，才让这个赛道火热，不是因为手机有摄像头，可以拍照录像。工具只是工具。

HD1024333w

1年前浙江

我自己偶尔做点小游戏，真的发现AI生成在工作流中的空间很大（可能现在还不是很棒棒），所以我持续在看一些AIGC生成的应用，还挺有趣的。真的希望进步再快一点！我想玩更多好游戏啊！！

Luyao_9a7Q

1年前浙江

3D是下一代的内容媒介里面有很多机会公司做了挺好的尝试

Virtualsiena

1年前浙江

打卡！

尊介

1年前北京

02:33 97年居然就开始创业了

Bdjdkwnwk

1年前北京

大家可以去tripo上尝试一下

HD1024333w

1年前广东

AI未来越来越近了

小v_KdHe

1年前广东

试了下产品还挺有趣，创作者解放双手指日可待，持续看好

陈壹舟

1年前广东

打卡！

独步91

1年前浙江

小板凳坐好了！

三个小胖墩

1年前江苏

现在3D已经发展到这个地步了吗？！！牛啊，晚上下班了试试产品

尊介

1年前北京

还是回答清楚主持人的问题，大家现在分享照片也不同于摄影，没看到普通人创作和分享3D的诉求。

尊介

1年前北京

28:55 MR、AR、VR才是关键吧，这些场景用户接受了才有使用并创造3D模型的诉求和意愿。且空间计算是核心技术，反观生成3D模型并不是核心技术，听两位创始人聊感觉像美团秀秀3D版。

Seele7

1年前湖北

17:44 工具的下放我还是很期待的，这可以极大的把大众也参与到创作中来

尊介

1年前北京

44:32 主持人为什么能汇聚这么多人，嘉宾一直没回答，说其他的。

霜雪明

1年前广东

29:11 我也试过用MP3的小显示屏看小说，把“下一行”的按键按得凹进去了

尾翼在这

1年前江西

这期主题确实是很有意思，主持人真的很不错，但是对面两位嘉宾我觉得对未来模式的理解还是太过于表面了，技术也许很好，但他们的平台我肯定不看好，3D内容的消费离开了交互体系和互动故事之外，基本很难走第二三条路，MR必然是一个新的路子

猫猫头.

10个月前美国

1️⃣AI 3D的进化趋势 Step 1. 大众级别的创作者工具：以前3A制作才用得起3D，降低创作门槛，让更多人参与到创作中，把创作的边际成本无限接近于零 Step 2. 内容平台：一旦出现了大众级别的创作者工具，就会需要内容平台hosting，承载消费者的存储、托管、掩饰、分享、体验，从而实现产品的商业化 2️⃣Tripo 2023年底上线，可以通过图片/文字转3D，大众级别的创作者工具图片/文字作为用户的输入，从算法流程、原理没有很大差异，是基于不同模型的组合结果图片：2D矩阵，表达形式固定文本：text转token，表达形式固定 3️⃣不同产品的3D Representation DreamFusion：3D Gaussian Splatting，图片生成单一模块 Wonder3D：图片到多视图（normal、RGB），再到3D模型 Tripo：基于transformer，用diffusion优化，从而得到更细腻的模型（NeRF、3D Gaussian Splatting、SDF是3Drepresentation的创新，是算法优化，但不能在DCC软件里使用，因此只能作为中间形态） 4️⃣产品体验 Step1. <1min内，生成一个粗糙的3D模型 Step2. 通过优化得到一个更精细的模型：市场主流的3D生成产品的发展思路比较一致，大的模块比较类似，但过程中实现方法存在差异，最后的表达方式是Mesh 5️⃣Millstone：Midjourney时刻/抖音时刻 2022/09 Google3D发布DreamFusion，3D生成成为可能 2023/09 Midjourney V2 2024/01 Midjourney V2.5：还不能应用于游戏、影视、动画核心资产，精度、拓扑还达不到；但在niche的场景里已经能发挥一些商业价值 2024/03 Midjourney V3 2024Q4 Midjourney V4：基本达到仅次于手动3D建模的效果，可以开始替代人类画师 2025Q1 Midjourney V5 - 抖音时刻：3D内容平台的竞争，新的内容范式的爆发 6️⃣硬件的影响 XR设备的成熟是必要但不充分的前置条件：类比在kinkle（硬件）出现之前，起点小说网（内容平台）就已经爆发了；因此非原生的3D表现形式可以先行 7️⃣3D的UGC 类比影视行业：2005年以前，影视创作门槛很高，全球从业者只有100万人，其中摄影师10万人，但业余创作者也有很多文字/图像/视频起初也都是3A艺术，直到出现了大众级别的创作者工具，用户才能够开始传递自己的信息 8️⃣AI 3D的市场规模目前创作成本很高，但也有中大几千万的内容创作者，工作相关的只有100万人，其中只有10万人是建模师推算依据：Blender的每个版本的更新都有2000-3000万的下载量（不包括其他DCC软件和引擎）游戏行业的市场规模：全球有30-40亿的游戏玩家，市场规模有2000-3000亿美元 3D的应用场景：除了影视、游戏，2D转3D的趋势还会出现在3D打印、元宇宙、数字孪生、教育、社交。预计2-3年内，3D模型的数量会翻5-10倍，近1000亿美金的市场 9️⃣ 补充 Startup：luma.ai、Meshy.AI、VAST（Tripo：to UGC、toB（developer））大公司：DreamFusion (Google) ， Point-E， Shape-E (OpenAl) ， Magic 3D， Get 3D，3DGen (meta) 感谢曼祺老师的访谈，继续当课代表，求锦鲤🥹

去听...

小宇宙

谁收藏了...

EarsOnMe

空空如也

加入我们的 Discord

扫描微信二维码

播放列表