主播
节目简介
来源:小宇宙
本简报《How Anthropic enables self-service data analytics with Claude》概述了 Anthropic 如何利用其 AI 模型 Claude 实现大规模自助式业务分析。在 Anthropic 内部,95% 的业务分析查询已通过 Claude 实现自动化,且综合准确率达到 95% 左右。这一转变使数据科学团队能够从重复性、常规性的分析工作中解脱出来,专注于因果建模、预测和机器学习等更具战略意义的任务。
核心结论指出:自助分析的准确性本质上是一个上下文与验证问题,而非单纯的代码生成问题。该系统成功的关键在于构建了一个“代理化分析栈(Agentic Analytics Stack)”,通过强化数据基础、确立事实来源、开发特定技能以及建立严密的验证机制,有效克服了传统 LLM 在数据处理中常见的幻觉与歧义问题。
1. 数据分析代理的核心挑战
尽管 LLM 的生成能力强大,但数据分析与通用代码编写存在本质区别。文档指出,数据并非软件,其复杂性主要源于数据的歧义性。
1.1 数据与软件的区别
* 编码(Coding): 具有开放的解决方案空间,奖励创造力,且文档与测试为防止幻觉提供了天然护栏。
* 分析(Analytics): 通常只有一个正确答案和单一的正确来源,且往往缺乏确定性的方法来证明输出的绝对正确性。
1.2 三大主要失败模式
大多数错误的分析响应可归因于以下三个属性:
1. 概念与实体的歧义性(Concept <> Entity Ambiguity): 代理无法从成千上万个字段中准确识别出能够回答用户问题的特定字段(例如:如何定义“活跃用户”)。
2. 数据陈旧(Data Staleness): 业务定义和模式不断变化,导致代理的知识过时,返回细微但错误的答案。
3. 检索失败(Retrieval Failure): 即使正确信息存在于数据模型中,代理也可能因搜索空间过大而无法找到。
2. 代理化分析栈(Agentic Analytics Stack)
Anthropic 构建了一个分层架构来解决上述错误,确保代理能够准确映射用户需求并执行。
2.1 数据基础(Data Foundations)
这是准确性的基石。其目标是缩小候选实体的范围,直到存在唯一的治理答案。
* 创建规范数据集: 减少重复,强制执行单一事实来源。
* 强制执行标准: 通过工具、持续集成(CI)和管理授权,确保代理始终被引导至受治理的数据层。
* 人工产物共存(Colocation): 将建模代码、语义层、文档和仪表板定义存放在同一仓库中,确保任何模型变更都会同步触达下游文档。
* 元数据产品化: 像对待代码一样对待表和列的描述、指标定义及归属关系。
2.2 事实来源(Sources of Truth)
这是代理查询的参考面,旨在减少歧义。
* 语义层(Semantic Layer): 经过编译的指标定义。Anthropic 发现,由人类拥有定义、由 Claude 生成文档的效果优于由 AI 自动生成定义。
* 谱系与转换图: 帮助代理在无法直接匹配指标时,通过追踪上游模型进行推理。
* 查询语料库(Query Corpus): 历史 SQL 记录。注意: 消融研究显示,仅提供原始检索访问对准确率提升不到 1%,必须将其蒸馏为结构化的参考文档。
* 业务上下文: 将公司知识图谱(如路线图、决策记录)输入代理,使其理解业务背景。
2.3 技能(Skills)
技能是代理的“程序化知识”,定义了咨询来源的顺序和分析流程。
* 成对技能(Pairwise Skills): 包括作为路由器的“知识技能”和编码分析逻辑的“程序技能”。
* 参考文档: 为 LLM 检索专门编写的 Markdown 文件,描述表范围、排除项及特定触发器。
* 技能维护: 必须作为工程问题对待。在 Anthropic,如果不积极维护,离线准确率会在一个月内从 95% 下降到 65%。
3. 验证与性能评估
Anthropic 强调,没有评估流程,数据团队就无法真正了解代理的准确性。
3.1 离线评估(Offline Evaluations)
* 仪表板评估: 覆盖常见的利害关系人问题。
* 长尾评估: 基于业务上下文生成的各种领域问题。
* 原则: 离线评估准确率应接近 100%,以确保没有明显的系统性漏洞。
3.2 消融技术(Ablation Techniques)
通过固定评估集并改变单一变量来优化系统:
* 结构优于访问: 实验证明,即使代理能看到正确答案所在的语料库,如果没有正确的结构映射,它仍无法正确回答。
* PR 粒度消融: 每次技能修改都必须在相关评估分片上进行前后对比运行。
3.3 在线验证(Online Validation)
* 对抗性审查(Adversarial Review): 使用 Claude 技能挑战最终答案的潜在假设。虽然这使准确率提高了 6%,但会增加 32% 的 Token 消耗和 72% 的延迟。
* 溯源脚注: 每个响应都包含来源层级、数据新鲜度和所有权信息,帮助用户判断信任度。
* 被动监控与主动修正: 自动扫描频道中的纠错语言(如“你漏掉了欺诈过滤器”),生成补丁并反馈到评估集中。
4. 实施策略建议
在启动自助分析项目时,团队应根据自身情况权衡以下维度:
5. 关键洞察总结
“分析准确性是一个上下文和验证问题,而不是代码生成问题。”
Anthropic 的实践表明,通往自助分析成功的道路并非单纯依靠更强大的模型,而是通过治理、结构化技能和严密的评估闭环,将模糊的业务语言精确映射到受管制的数仓实体中。
📺播客说明
本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。
核心结论指出:自助分析的准确性本质上是一个上下文与验证问题,而非单纯的代码生成问题。该系统成功的关键在于构建了一个“代理化分析栈(Agentic Analytics Stack)”,通过强化数据基础、确立事实来源、开发特定技能以及建立严密的验证机制,有效克服了传统 LLM 在数据处理中常见的幻觉与歧义问题。
1. 数据分析代理的核心挑战
尽管 LLM 的生成能力强大,但数据分析与通用代码编写存在本质区别。文档指出,数据并非软件,其复杂性主要源于数据的歧义性。
1.1 数据与软件的区别
* 编码(Coding): 具有开放的解决方案空间,奖励创造力,且文档与测试为防止幻觉提供了天然护栏。
* 分析(Analytics): 通常只有一个正确答案和单一的正确来源,且往往缺乏确定性的方法来证明输出的绝对正确性。
1.2 三大主要失败模式
大多数错误的分析响应可归因于以下三个属性:
1. 概念与实体的歧义性(Concept <> Entity Ambiguity): 代理无法从成千上万个字段中准确识别出能够回答用户问题的特定字段(例如:如何定义“活跃用户”)。
2. 数据陈旧(Data Staleness): 业务定义和模式不断变化,导致代理的知识过时,返回细微但错误的答案。
3. 检索失败(Retrieval Failure): 即使正确信息存在于数据模型中,代理也可能因搜索空间过大而无法找到。
2. 代理化分析栈(Agentic Analytics Stack)
Anthropic 构建了一个分层架构来解决上述错误,确保代理能够准确映射用户需求并执行。
2.1 数据基础(Data Foundations)
这是准确性的基石。其目标是缩小候选实体的范围,直到存在唯一的治理答案。
* 创建规范数据集: 减少重复,强制执行单一事实来源。
* 强制执行标准: 通过工具、持续集成(CI)和管理授权,确保代理始终被引导至受治理的数据层。
* 人工产物共存(Colocation): 将建模代码、语义层、文档和仪表板定义存放在同一仓库中,确保任何模型变更都会同步触达下游文档。
* 元数据产品化: 像对待代码一样对待表和列的描述、指标定义及归属关系。
2.2 事实来源(Sources of Truth)
这是代理查询的参考面,旨在减少歧义。
* 语义层(Semantic Layer): 经过编译的指标定义。Anthropic 发现,由人类拥有定义、由 Claude 生成文档的效果优于由 AI 自动生成定义。
* 谱系与转换图: 帮助代理在无法直接匹配指标时,通过追踪上游模型进行推理。
* 查询语料库(Query Corpus): 历史 SQL 记录。注意: 消融研究显示,仅提供原始检索访问对准确率提升不到 1%,必须将其蒸馏为结构化的参考文档。
* 业务上下文: 将公司知识图谱(如路线图、决策记录)输入代理,使其理解业务背景。
2.3 技能(Skills)
技能是代理的“程序化知识”,定义了咨询来源的顺序和分析流程。
* 成对技能(Pairwise Skills): 包括作为路由器的“知识技能”和编码分析逻辑的“程序技能”。
* 参考文档: 为 LLM 检索专门编写的 Markdown 文件,描述表范围、排除项及特定触发器。
* 技能维护: 必须作为工程问题对待。在 Anthropic,如果不积极维护,离线准确率会在一个月内从 95% 下降到 65%。
3. 验证与性能评估
Anthropic 强调,没有评估流程,数据团队就无法真正了解代理的准确性。
3.1 离线评估(Offline Evaluations)
* 仪表板评估: 覆盖常见的利害关系人问题。
* 长尾评估: 基于业务上下文生成的各种领域问题。
* 原则: 离线评估准确率应接近 100%,以确保没有明显的系统性漏洞。
3.2 消融技术(Ablation Techniques)
通过固定评估集并改变单一变量来优化系统:
* 结构优于访问: 实验证明,即使代理能看到正确答案所在的语料库,如果没有正确的结构映射,它仍无法正确回答。
* PR 粒度消融: 每次技能修改都必须在相关评估分片上进行前后对比运行。
3.3 在线验证(Online Validation)
* 对抗性审查(Adversarial Review): 使用 Claude 技能挑战最终答案的潜在假设。虽然这使准确率提高了 6%,但会增加 32% 的 Token 消耗和 72% 的延迟。
* 溯源脚注: 每个响应都包含来源层级、数据新鲜度和所有权信息,帮助用户判断信任度。
* 被动监控与主动修正: 自动扫描频道中的纠错语言(如“你漏掉了欺诈过滤器”),生成补丁并反馈到评估集中。
4. 实施策略建议
在启动自助分析项目时,团队应根据自身情况权衡以下维度:
5. 关键洞察总结
“分析准确性是一个上下文和验证问题,而不是代码生成问题。”
Anthropic 的实践表明,通往自助分析成功的道路并非单纯依靠更强大的模型,而是通过治理、结构化技能和严密的评估闭环,将模糊的业务语言精确映射到受管制的数仓实体中。
📺播客说明
本播客采用虚拟主持人进行播客翻译的音频制作,因此有可能会有一些地方听起来怪怪的。如想了解更多信息,请关注微信公众号"AI西经东译"获取AI最新资讯。如有后续想要听的其他外文播客,也欢迎联系微信:mayday2303。