AI有点意思 - S2E14: 多模态：AI的“通感”时代 - EarsOnMe

主播

JingyuS 1 档播客

Leksah 1 档播客

zhenlohuang 1 档播客

节目简介

来源：小宇宙

大家好，我是小艾，欢迎回到《AI有点意思》第二季。
在过去整整十三期的节目里，我们一直在围绕一个核心展开探索——语言。我们聊了Transformer如何理解语言，Token如何切割语言，提示词如何引导语言，甚至RAG和Function Calling如何扩展语言模型的能力边界。但不知你是否意识到，人类认识世界的方式，从来不止于文字。
我们用眼睛捕捉光影与色彩，用耳朵聆听旋律与喧嚣，用指尖感受质感与温度。我们通过五种感官的融合，才构建起对这个世界的完整认知。那么，AI的终极形态，也必然不止于文字。今天，我们要开启一个全新的篇章——多模态，也就是让AI能够理解并生成图像、声音、视频等多种信息的能力。这标志着AI正从“文本大脑”走向“全息大脑”。
那么，什么是多模态？简单说，就是让AI拥有“通感”的能力。它不再是一个只会读书的学者，而是一个能看、能听、能说、能画的艺术家。你给它一张照片，它能为你讲出照片背后的故事；你哼一段旋律，它能为你续写一首完整的曲子；你看一段无声视频，它能为你写出深度的解说词。
这个愿景听起来很科幻，但事实上，多模态AI已经在我们的生活中悄然铺开。Midjourney和Stable Diffusion画出的惊艳图像，Sora生成的逼真视频，甚至你手机相册里那个能“按图搜图”的功能——背后都是多模态技术的身影。
今天，我们就以其中最耀眼的明星——图像生成为例，来拆解多模态AI背后的核心魔法。而这场魔法的主角，叫做扩散模型。
扩散模型的工作原理，听起来像一种反向的“毁灭与创造”。我们可以用一个比喻来理解：想象一位画家站在一张完全由随机噪声构成的画布前——就是那种老式电视机没信号时的雪花屏，全是混乱的色点和噪点。这位画家的任务，不是从零开始构图，而是一遍又一遍地“去噪”。
第一步，画布上全是噪声，什么也看不清。
第二步，画家轻轻一抹，噪声稍微减少了一点，隐约能看到一些模糊的色块。
第三步，再一抹，色块开始呈现出轮廓，像是一团云或一片阴影。
第四步，第五步……经过几十甚至上百次的“去噪”，那团模糊的轮廓逐渐清晰起来——原来是一只睡着的猫，阳光洒在它的绒毛上，胡须根根分明。
这个从纯噪声开始，逐步去除噪声，最终“显影”出清晰图像的过程，就是扩散模型的核心逻辑。它并没有在“凭空创造”，而是在学习如何从混沌中还原秩序。
训练阶段，模型会学习“加噪”的反向过程：它看到海量的真实图片，也看到这些图片被逐渐添加噪声直到完全模糊的样子。通过无数次这样的“破坏与修复”训练，模型终于学会了“去噪”的规律——知道什么样的噪声组合，经过什么样的步骤，可以还原出一只猫、一朵花、一张人脸。
当你输入一段文字提示，比如“一只睡在阳光里的猫”，模型就从这个提示出发，引导它的“去噪”过程，确保每一步的“显影”都朝着符合你描述的方向前进。最终，它从一张噪声画布里，召唤出你心中的那只猫。
这个过程的精妙之处在于，它模仿了人类创作的本质：从模糊的灵感到清晰的成品。就像一位雕塑家面对一块粗糙的大理石，一点点剔除多余的部分，让沉睡在石头里的形象逐渐显现。扩散模型做的，就是从混沌的“噪声石料”中，雕琢出符合我们想象的图像。
当然，实际的扩散模型远比这个比喻复杂，它涉及复杂的数学概率和神经网络架构，但核心思想从未改变：学习从噪声到图像的“逆向工程”，然后用文字作为导航仪，指引这个“显影”的方向。
那么，当我们把这种图像生成能力，与语言模型的理解能力，再加上音频生成、视频生成等其他模态的技术结合起来，会发生什么？
那就是多模态的终极前景——真正的“通感”AI。
在这样的AI面前，文字、图像、声音不再是孤立的王国，而是被统一转化为一种内部的“数学语言”或“语义指纹”。一首诗可以被“翻译”成一幅画，一段旋律可以被“翻译”成一段舞蹈动作，一部无声电影可以被“翻译”成一篇深情的解说词。AI在多种模态之间自由穿梭，实现真正的跨界融合。
这场变革的影响将是革命性的：
设计师可以对着AI说“给我设计十款具有赛博朋克风格的T恤图案”，然后从生成的图像中挑选灵感；音乐人可以哼一段旋律，让AI自动生成完整的编曲和伴奏。
学生读一篇关于古埃及的文章，可以立刻让AI生成一幅金字塔内部结构的3D示意图；学历史时，可以让AI“复活”历史人物，用他们的口吻讲述自己的故事。
未来的游戏可能不再需要预先绘制所有场景，而是根据玩家的描述实时生成；看电影时，你可以让AI把结局改成你喜欢的版本，重新渲染出来。
这意味着，AI与物理世界的交互将变得无比自然和丰富。它不再只是一个藏在对话框里的“文字大脑”，而是一个能感知、能创造、能与我们全方位协作的“全息伙伴”。
总结今天的核心要点：多模态技术让AI从单一的“文本大脑”进化为能理解、生成图像、声音等多种信息的“全息大脑”。其中，扩散模型作为图像生成的核心引擎，通过“从噪声中逐步显影”的方式，实现了文字到图像的惊人转化。而多模态的终极前景，是让AI拥有“通感”能力，在文字、图像、声音之间自由穿梭，从而彻底重塑创意、教育、娱乐等领域的未来。
我们正在见证AI从“会说话”到“会看、会听、会创造”的历史性跨越。这不再是一场关于效率的革命，而是一场关于感知与表达的革命。
我是小艾，感谢收听本期《AI有点意思》，我们下期再会。

S2E14: 多模态：AI的“通感”时代

加入我们的 Discord

扫描微信二维码

播放列表