主播
节目简介
来源:小宇宙
节目简介
你的RAG系统检索很准,但用户还是说"搜出来的东西找不到重点"?
这期我们聊一个大多数人没注意到的裂缝:
检索是语义化的,但高亮还在用关键词匹配。
搜"iPhone性能",文档讨论的是"A15仿生芯片"和"基准分数",什么都没高亮。
为什么LLM解决不了这个问题(每秒10美元成本),以及一个0.6B参数的小模型如何做到毫秒级语义高亮。
时间线
01:00 RAG系统的一个被忽视的问题
03:00 语义检索 vs 关键词高亮——裂缝在哪
06:00 3000字文档没有高亮:用户体验灾难
08:00 为什么LLM不行——每秒10美元的成本计算
12:00 Zilliz的解决方案:0.6B的小模型
15:00 为什么要用Qwen3解释推理步骤(内置质量检查)
17:00 知识蒸馏的力量:8x A100训练5小时
18:00 测试结果:跨域泛化才是关键
21:00 集成到Milvus:未来开箱即用
22:00 系列联动:从AI记忆到Paged Attention到语义高亮
24:30 隐形Bug总结:你系统里还有多少这样的问题
核心观点
· 大多数RAG系统存在一个被忽视的体验裂缝:检索语义、高亮关键词
· 搜"iPhone性能",文档讨论"A15仿生芯片"——检索理解意义,高亮不理解
· LLM能解决但成本毁灭:100并发用户500次LLM调用,每天可能数十万美元
· Zilliz用0.6B参数小模型 + Qwen3蒸馏(含推理解释步骤)解决了速度和成本问题
· 跨域泛化是关键指标:竞争对手领域内好领域外差,这个模型都好
· RAG体验完整链:检索→理解→展示→用户信任,多数系统只做好了前两个
公众号:一支烟花AI
· 欢迎加入社群交流
你的RAG系统检索很准,但用户还是说"搜出来的东西找不到重点"?
这期我们聊一个大多数人没注意到的裂缝:
检索是语义化的,但高亮还在用关键词匹配。
搜"iPhone性能",文档讨论的是"A15仿生芯片"和"基准分数",什么都没高亮。
为什么LLM解决不了这个问题(每秒10美元成本),以及一个0.6B参数的小模型如何做到毫秒级语义高亮。
时间线
01:00 RAG系统的一个被忽视的问题
03:00 语义检索 vs 关键词高亮——裂缝在哪
06:00 3000字文档没有高亮:用户体验灾难
08:00 为什么LLM不行——每秒10美元的成本计算
12:00 Zilliz的解决方案:0.6B的小模型
15:00 为什么要用Qwen3解释推理步骤(内置质量检查)
17:00 知识蒸馏的力量:8x A100训练5小时
18:00 测试结果:跨域泛化才是关键
21:00 集成到Milvus:未来开箱即用
22:00 系列联动:从AI记忆到Paged Attention到语义高亮
24:30 隐形Bug总结:你系统里还有多少这样的问题
核心观点
· 大多数RAG系统存在一个被忽视的体验裂缝:检索语义、高亮关键词
· 搜"iPhone性能",文档讨论"A15仿生芯片"——检索理解意义,高亮不理解
· LLM能解决但成本毁灭:100并发用户500次LLM调用,每天可能数十万美元
· Zilliz用0.6B参数小模型 + Qwen3蒸馏(含推理解释步骤)解决了速度和成本问题
· 跨域泛化是关键指标:竞争对手领域内好领域外差,这个模型都好
· RAG体验完整链:检索→理解→展示→用户信任,多数系统只做好了前两个
公众号:一支烟花AI
· 欢迎加入社群交流