一支烟花AI播客 - 从零到一构建多模态 AI Agent--Apoorva Joshi, MongoDB - EarsOnMe

主播

一支烟一朵花 1 档播客

吵爷 1 档播客

新一学AI 1 档播客

节目简介

来源：小宇宙

来自 MongoDB 的专家Apoorva Joshi将分享构建一个能够处理混合媒体内容的多模态 AI Agent 的完整过程，从分析图表和图形到从包含视觉元素的文档中提取见解。
使用 MongoDB 作为向量数据库和内存存储，并利用 Google 的 Gemini 进行多模态推理，你将通过直接实现核心组件，使用老式的 Python 语言，获得多模态数据处理管道和代理编排模式的实战经验。
00:00 从零开始构建多模态AI代理的核心概念解析本次播客深入探讨了如何从零开始构建一个多模态的AI代理，重点解析了AI代理的核心概念、工作原理及其重要性。
AI代理被定义为一个利用大语言模型（LLM）作为核心思考和推理系统的智能系统。
它通过LLM的强大推理能力分析问题、理解用户意图，并将大任务拆解成小步骤。
随后，代理基于这个推理制定解决问题的计划，如果遇到问题或错误，会反馈给LLM进行重新思考和调整，这一过程构成了代理工作的核心模式。
此外，代理还需借助工具（如API接口、数据库接口等）来与外部世界互动，执行具体的操作。
04:35 LLM、REG与AI代理的核心区别与优势讨论了简单提问、减式增强生成（REG）与AI代理在处理问题时的区别。简单提问依赖于LLM的参数化知识，但受限于训练数据的时效性和缺乏外部信息处理能力。REG通过挂载外部知识库来提供更准确、个性化的回答，但仍难以执行复杂任务和与外部系统交互。
AI代理则具有自主规划和行动能力，能够通过调用工具、API等与现实世界交互，处理复杂动态任务，并具备反思和自我修正的能力。
08:25 AI代理在复杂任务中的应用与限制讨论深入分析了AI代理在处理复杂任务中的优势及其适用场景，包括个性化旅行规划、模拟科学实验设计、后台数据分析、创意性工作以及需要长期个性化服务的任务。
同时，对话强调了AI代理的使用需考虑成本、延迟及非确定性输出等现实问题，指出在任务具有高度复杂性、对延迟容忍度高、能接受非确定性结果，或需要长期个性化服务的情况下，优先考虑使用AI代理是较为合适的选择。
14:48 AI代理的核心组件及其感知功能AI代理的核心组件包括感知、规划与推理、工具和记忆，它们共同构成了AI代理的工作流程。
首先，感知是代理理解外部世界的入口，它不仅接收来自用户的直接输入，如文本、语音或图像，还能响应系统事件触发，如收到新邮件或物联网设备的新数据。
随着技术的发展，输入模态变得越来越丰富，代理需要处理包括文本、图像、语音甚至视频在内的多模态输入。
感知阶段还包括对信息的初步处理，如将语音转换为文本或识别复杂的指令意图，这是代理工作的第一步。
17:07 构建AI代理的核心组件：感知、规划与推理讨论深入到AI代理的构建中，特别是其核心组件：感知、规划与推理。
通过详细解释大语言模型（LLM）在规划与推理中的角色以及如何通过精心设计的提示语（prompt）来引导LLM进行有效的规划和推理，阐述了两种主要的规划模式：
无反馈规划（COT）和有反馈规划（REACT）。
特别强调了REACT框架如何通过动态调整策略，使代理能够根据实际情况推进任务执行。此外，还提到了构建AI代理的下一个关键组件——工具（tools）的重要性。
24:26 LLM与工具交互机制详解对话讨论了代理（LLM）如何通过各种工具与外部世界交互，强调了工具的广泛性和重要性，包括数据库查询、代码执行、图像识别、情感分析等。指出了LLM的角色是决策者，识别何时调用哪个工具及提供所需参数，而执行者是代理的APPK型代码。
为确保LLM正确使用工具，需提供工具清单和清晰的工具模式（schema），以JSON格式定义，包括工具名称、功能描述和所需参数，确保LLM能准确判断和调用工具，减少错误率。
27:28 AI代理中的记忆组件：短期与长期记忆对话深入探讨了AI代理中的记忆组件，阐明了记忆如何使代理能够存储和回忆过去的交互信息，以及其在个性化服务和理解上下文中的关键作用。记忆被分为短期记忆和长期记忆两大类，前者负责维持当前对话的连贯性，后者则负责长期储存和更新信息，实现个性化的关键。
长期记忆的实现更具挑战，涉及有效的信息筛选、储存、更新及遗忘机制。分享中还提到，如果对记忆话题感兴趣，可以进一步探索相关专家和资源。
29:36 AI代理工作流程解析：以旧金山天气查询为例对话详细阐述了AI代理处理用户查询旧金山天气的过程，从感知用户输入、通过LLM进行规划与推理、调用天气API获取数据，到生成自然语言回复。此外，讨论了天气API调用失败时的处理策略，以及短期记忆如何帮助理解上下文和实现连贯对话。通过这一例子，清晰展示了AI代理的核心机制和工作流程。
34:40 多模态AI模型：理解和生成跨模态信息的能力多模态AI模型旨在处理和理解不同类型的输入数据，如文本、图像、音频和视频，从而生成跨模态的输出。
这些模型包括多模态潜入模型和多模态大语言模型（MLM），其中潜入模型将不同模态的数据映射到同一高维向量空间，以便实现跨模态检索；
而MLM则能直接理解和处理多模态输入，不仅能生成文本，还能根据文本描述生成图片或用语音回答问题，这在理解和处理现实世界中多模态信息方面具有重要意义。
39:37 构建多模态AI代理：挑战与解决方案讨论了如何利用多模态大语言模型和相关工具构建一个多模态AI代理，使其能理解和处理混合模态的任务。特别强调了处理包含文本、图像和图表的大型文档语料库的挑战，以及传统处理方法中存在的问题，如信息丢失和模型集成难度大。
还探讨了使用视觉模型识别和提取页面元素，然后进行摘要和文本嵌入等复杂步骤，以准备和检索这种混合模态文档的策略。
46:19 对象识别plus多模态嵌入在处理混合模态文档中的局限性对话讨论了对象识别plus多模态嵌入方法在处理混合模态文档时的改进与局限。
首先，通过使用多模态嵌入模型直接处理文本块、图像和表格，避免了摘要带来的信息损失。
然而，这种方法依然依赖于复杂的元素提取过程，并可能面临模态鸿沟问题，特别是在使用基于clip架构的模型时，导致相关但不同模态的数据在向量空间中距离过远，严重影响检索效果。此外，前处理步骤的复杂性和方块本身带来的上下文丢失问题也增加了处理难度。
这些局限性突显了寻找更有效解决方案的必要性。
50:03 基于VLM架构的多模态文档处理与检索近年来，基于视觉语言模型（VLM）的架构在处理和检索包含图文混排的文档时展现出巨大优势。
VLM使用同一个编码器同时处理文本和视觉特征，从而弥合了模态鸿沟，确保文本和视觉信息在向量空间中真正靠近。这种架构简化了处理混合模态文档的工作流程，只需将文档页面截图，输入到VLM模型，生成统一的嵌入向量，然后存储到向量数据库中，用于后续检索。
这种方法不仅节省了预处理时间和计算资源，还保留了原始图文空间布局和上下文关系，显著提升了检索质量。
在实际应用中，截图文件被存储在云存储服务中，而向量数据库仅存储嵌入向量和指向截图文件的路径，实现了高效的数据管理和检索。
56:34 暗夜截图技术与多模态嵌入模型在文档处理中的应用对话探讨了暗夜截图技术在处理文档时可能切断跨页上下文联系的问题，并讨论了通过截图重叠、存储复杂结构信息和检索策略来缓解此问题的方法。
对比了将整个PDF文件输入给LLM与基于检索的方法，后者通过精确定位最相关页面提高效率和效果。
此外，提到了Voyage AI模型作为VLM架构的多模态嵌入模型的例子，以及这种方法在处理图文混合文档上的优势。最后，讨论了VLM嵌入模型对硬件的要求和实际运行流程，包括如何利用已存储的数据回答用户问题。
01:01:31 多模态代理的工作流与短期记忆机制对话详细阐述了一个多模态代理如何处理需要结合文档图文信息的问题。
流程包括用户提出问题、代理转发查询给多模态LLM、LLM根据问题调用向量搜索工具获取相关截图、代理执行向量搜索、从存储加载截图、将所有信息提交给LLM进行推理和生成答案，最终返回答案并更新短期记忆。此外，讨论了短期记忆的实现，包括如何利用会话ID组织和存储对话历史，以及如何确保多轮对话的连贯性。
01:08:58 多模态AI代理的深度解析与未来展望对话深入探讨了多模态AI代理的核心技术与流程，从LLM推理和工具使用，到代理的四大核心组件，再到多模态处理的挑战与VLM架构的解决方案。
通过具体案例分析，揭示了多模态嵌入模型和LLM的重要性，以及它们如何简化图文混合文档的处理。
最后，提出了对未来AI技术突破点的思考，以及AI代理在科研、金融、医疗等领域的潜在革命性应用，鼓励听众深入思考并加入社群交流。

从零到一构建多模态 AI Agent--Apoorva Joshi, MongoDB

加入我们的 Discord

扫描微信二维码

播放列表