Album
时长:
75分钟
播放:
39
发布:
4个月前
简介...
https://xiaoyuzhoufm.com

Notion 的 AI 负责人 Sarah Sachs,她将分享 Notion 是如何构建其备受赞誉的 Notion AI 的见解。


Carlos Esteban 是 Braintrust 的解决方案工程师。此前,他在 HashiCorp 帮助企业安全地扩展基础设施。他还是前网球运动员,现在是一名瑜伽爱好者,仍在寻找下一项全职运动。



00:00 深入解析Notion AI的构建与评估策略本期播客探讨了Notion AI的构建过程及其背后的挑战,特别是如何利用Brain Trust等工具确保AI产品的质量和可靠性。Notion AI的负责人和其他专家分享了他们在迭代过程中的思考,强调了可观测性和良好评估的重要性,指出这两点是构建优秀AI产品的核心。通过深入分析,揭示了Notion AI在实际运行中如何评估表现,以及如何利用工具提高产品质量。




01:57 AI系统的可观测性与评估的重要性对话强调了在AI系统开发中,可观测性和评估的重要性远超于单纯的提示工程。可观测性指的是系统能够记录并分析AI运行过程中的各项指标,如资源消耗、响应速度和用户反馈等,以确保系统在各种场景下的稳定性和可靠性。评估则通过系统化的方法衡量AI输出的质量、准确性和可靠性,并将其融入到持续迭代的循环中。Sara的团队在提示工程上仅投入10%的时间,而90%的时间用于评估和迭代,这表明AI产品的成功更多依赖于持续的评估和健壮性,而非一次性的惊艳效果。




04:49 Notion AI的发展历程与技术演进Notion AI的探索始于早期的AI Rider功能,早于ChatGPT的兴起。其发展过程逐步演进,从简单的文本补全到数据库层面的AI代理,如自动翻译和填充信息。随着模型能力的提升,他们实现了基于RAG检索增强生成的问答功能,处理用户空间内容的复杂问题,包括多语言和非英语用户的挑战。此后,Notion AI进一步深度集成了诸如Brain Trust工具,推出了通用搜索、文件附件搜索以及AI工作套件等,包括AI会议纪要、企业级搜索和深度研究工具。这一系列功能的升级展示了从简单生成到智能体的转变,体现了务实的工程智慧和逐步推进的发展策略。




08:00 Notion团队面临的AI评估挑战与解决方案随着功能复杂度增加和用户量增大,Notion团队在AI评估中遇到了数据量激增、人工评估效率低下、评估标准不统一以及高质量反馈稀缺等挑战。早期使用Google Sheet处理数据的方法效率低下,人工评估的主观性强且难以规模化。研究显示,少量高质量的人工标注或用户反馈比大量低质量数据更有效。因此,团队迫切需要一个强大的、系统化且可扩展的解决方案来管理评估数据和追踪用户反馈,从而提高评估效率和质量,这促使了类似Bring Trust这样的工具的出现。




10:03 Notion如何通过迭代循环将评估融入日常工作Notion通过确定改进点、策划目标数据集、设计评分函数、运行评估和检查结果的迭代循环,将评估深入融入其产品开发的各个环节和角色中。这一流程不仅包括工程师的参与,产品管理和设计师也深入其中,通过查看评估结果来理解和调整用户需求,确保模型的真实表现与用户期望一致。此方法有效地避免了大量伪序数据的创建,同时保证了代码变更对产品质量的影响得到频繁和自动化的检查。




15:52 LLM作为评委:评估AI输出的两种方法对话讨论了使用大语言模型(LLM)作为评委来自动评估AI输出的两种方法:通用评委和定制评委。通用评委使用一个通用的prompt对所有样本进行评估,而定制评委则为每个样本编写特定的评判prompt,以精确捕捉对输出的细微期望和规则。定制评委尤其适用于格式、语言和内容要求严格的场景,以及评估搜索或RAG应用,因其能更好地理解复杂的规则并适应不断变化的知识库。




19:45 LLM定制评委系统在Notion的AI质量保障与迭代效率提升对话讨论了通过定制评委系统在Notion中评估和更新AI模型的核心价值。这套系统允许快速切换和评估不同模型,确保模型性能的稳定和提升,同时支持灵活选择最适合特定场景的模型。这种方法不仅加速了AI产品的迭代和优化,还帮助Notion保持了行业领先地位,最终使用户受益于更快、更可靠的AI功能。




22:04 Notion的AI迭代流程与显著成果通过应用Brain Trust和评估哲学,Notion在AI产品迭代流程中取得了显著成果,这套评估体系已成为不可或缺的基础设施。AI产品的质量相比早期有了飞跃性提升,从手工作坊进化到了现代化的工厂。此外,有效解决了多语言知识挑战,通过严谨的评估指标和流程,即使工程师不懂特定语言,也能理解和衡量AI在多语言环境下的表现,从而确保产品对不同语言用户同样友好。




24:22 深入探讨Notion LLM评委系统及其评估策略对话深入探讨了Notion在使用LLM评委系统时的策略和方法,解释了如何利用多个评委进行评估,既可能针对单个样本进行详细分析,也可能处理整个数据集。讨论了自动化prompt优化的效果及其在不同场景下的应用。此外,还详细讨论了用户反馈(赞和踩)在评估过程中的作用及其与内部评分函数的关系,强调了用户反馈的复杂性和如何利用这些反馈来持续优化当前的模型和系统。




28:50 LLM评委评分方式及其工程实践LLM评委的评分方式通常采用连续分数,如0到100分,而非简单的二元判断。在Notion的实践中,虽然分数不一定精细校准,但设定阈值(如低于0.7视为失败案例)并结合人工审查,确保了评分的有效性。面对大量失败案例时,会利用另一个LLM进行聚类分析,总结主要问题主题,提高审查效率。尽管学术界关注LLM评分的精确校准,Notion采用的是更实用的移植加人工抽查加LLM总结的方式。此外,成对比较(AB测试)在需要精细对比和控制风险时使用,而在开发早期阶段或更注重探索新方向时,更倾向于直接查看每个方案的绝对得分。




31:25 评估AI功能的挑战与策略讨论了在评估AI特定功能时面临的挑战,特别是过度依赖特定评估标准可能导致忽略其他重要方面的问题。提出了两种应对策略:创建任务特定的评估集和保留核心评估指标并承诺人工审查失败案例。此外,针对RAG(检索增强生成)评估中的动态性难题,介绍了几种处理方式,包括冻结索引和拆分评估检索与生成环节,以更准确地定位问题所在。通过拆分评估,可以更务实地解决技术难度和数据隐私等复杂问题。Notion内部大量使用其产品,为RAG评估提供了丰富的应用场景和数据,展示了doc fooding的优势。




35:25 Notion如何管理和切换大规模AI模型在管理大量AI模型和prompt时,Notion通过明确每个prompt的负责人和依赖关系,以及建立邮件列表和代码所有权等方式来确保管理和维护的有序进行。面对主要模型提供商服务出现故障的情况,Notion面临的挑战在于如何快速切换到备选模型。切换并不简单,因为不同的模型可能有成本、能力和特性的差异,需要预先配置好备选方案,并有相应的工具或流程以支持紧急情况下的快速切换。这要求公司内部进行充分的协调和投入,以确保AI功能的稳定性和可靠性。




38:09 Brain Trust平台在AI开发中的评估核心作用对话深入探讨了Brain Trust平台在AI开发中的核心作用,特别是其评估和监控机制。该平台通过离线测试和线上监控,帮助开发团队主动和被动地发现并解决问题,如AI幻觉、性能衰退和成本失控等。评估的重要性在于提升开发速度、降低成本、以及促进跨部门协作,使非技术成员也能基于数据参与AI应用的构建和评估,从而显著提高商业价值。




40:44 Brain Trust平台的核心设计理念与功能解析Brain Trust平台的核心理念包括三个关键要素:


一是提供工具让开发者便捷地创建、测试、比较和版本化管理prompt;


二是自动化评估,允许用户定义评估标准并自动运行评估以量化分数,指示版本改进或退步及需要改进的方面;


三是可观测性,平台需接入生产环境流量,记录AI系统实际运行情况,收集用户反馈并反哺评估数据集和迭代流程,形成闭环。这三者相辅相成,构成一个完整的开发和运营ML ops循环。




42:22 构建AI系统评估的核心要素讨论了评估AI系统表现的三个核心组件:任务(task)、数据集(dataset)和分数(score)。


任务指要测试的内容,可以是简单的语言模型调用或复杂的智能体工作流。


数据集由输入、预期输出和元数据组成,用于检验任务在不同场景下的表现。


分数通过评分函数量化任务的表现,支持主观的LLM评委和客观的代码或规则评分,建议结合使用以获得更全面的评估结果。




47:07 Brain Trust平台的评估模式与功能详解离线评估在开发阶段进行,通过固定数据集迭代prompt和调整模型参数,而在线评估则实时监控生产环境中的用户交互和AI响应,利用预定义的评分函数持续评估线上服务质量,形成反馈闭环以优化AI应用。


在线评估还可用于AB测试,比较不同版本的prompt性能。面对机器评分与主观判断不一致的情况,需深入理解业务场景以优化评估标准。




Brain Trust平台提供多种任务类型支持,包括基本的prompt定义、支持多轮对话的extra messages、自定义工具的工具库,以及可连接多个prompt形成复杂逻辑流程的智能体agents,以满足从简单到复杂的AI应用场景评估需求。




52:01 LLM模型评估的最佳实践与工具使用指南对话详细讨论了使用更强的模型评估较弱模型的实践,强调了具体可操作的评判标准的重要性,以及定期对比机器和人类专家判断一致性以评估评判标准的必要性。


此外,解释了breaches界面中playground和experiments的区别,前者用于快速实验和调试,后者则用于正式评估和版本比较。


最后,介绍了开发者如何通过SDK与brain trust平台进行交互,使用bring trust push和branched eve命令进行资源推送和评估任务的自动化执行,实现MLOPS或LLOPS自动化流程的关键步骤。




56:54 Brain Trust平台的AI产品生产环境监控能力对话详细介绍了Brain Trust平台在AI产品部署到生产环境后,如何通过可观察性和日志功能进行实时监控、性能下降警报设置、快速问题排查及反馈回路闭合。


平台提供了多种灵活的日志记录方法,从自动追踪到自定义日志记录,以及通过在线评分功能实时评估AI模型的表现,从而实现对生产环境AI交互数据的高效管理和优化。此外,平台还提供了视图功能,便于用户根据特定条件筛选和管理日志数据,提升数据分析效率。




01:04:00 Brain Trust在AI开发中的人在环支持对话讨论了在AI开发和评估中,Brain Trust如何通过人类审核和终端用户反馈两种方式有效整合人类智慧。


人类审核主要由专业标注员或领域专家在平台上手动标记、评分或审核数据集样本和生产日志,以建立高质量的预期输出并评估AI模型的表现。


用户反馈则通过记录用户在AI产品使用过程中的反馈信号,如点赞、点踩、评论等,以及特定行为,来收集真实用户的具体反馈,用以改进模型和prompt。


Brain Trust的SDK提供函数,便于记录这些反馈并将其集成到开发和迭代流程中,从而构建更可靠的AI系统。




01:08:45 深入探讨Brain Trust高级功能与AI产品构建对话深入讨论了Brain Trust的高级功能——远程评估,解释了其如何解决Playground在处理复杂AI应用逻辑时的局限性。


远程评估允许将本地机器或远程服务器上的复杂评估任务逻辑与Brain Trust的Playground界面整合,从而实现对复杂任务的快速调试和迭代。




此外,对话还探讨了该功能在实际场景中的应用,如处理自定义内部工具、复杂代码逻辑和快速变化的开发环境。


最后,讨论了远程评估对于提高AI产品构建和迭代效率的潜在价值,以及它如何降低非技术人员参与迭代的门槛。


通过这些讨论,强调了评估和可靠性在构建高质量AI产品中的重要性。

评价...

空空如也

小宇宙热门评论...

暂无小宇宙热门评论

EarsOnMe

加入我们的 Discord

与播客爱好者一起交流

立即加入

扫描微信二维码

添加微信好友,获取更多播客资讯

微信二维码

播放列表

自动播放下一个

播放列表还是空的

去找些喜欢的节目添加进来吧