一支烟花AI播客 - 语义高亮——RAG的隐形Bug - EarsOnMe

主播

节目简介

来源：小宇宙

节目简介
你的RAG系统检索很准，但用户还是说"搜出来的东西找不到重点"？
这期我们聊一个大多数人没注意到的裂缝：
检索是语义化的，但高亮还在用关键词匹配。
搜"iPhone性能"，文档讨论的是"A15仿生芯片"和"基准分数"，什么都没高亮。
为什么LLM解决不了这个问题（每秒10美元成本），以及一个0.6B参数的小模型如何做到毫秒级语义高亮。
时间线
01:00 RAG系统的一个被忽视的问题
03:00 语义检索 vs 关键词高亮——裂缝在哪
06:00 3000字文档没有高亮：用户体验灾难
08:00 为什么LLM不行——每秒10美元的成本计算
12:00 Zilliz的解决方案：0.6B的小模型
15:00 为什么要用Qwen3解释推理步骤（内置质量检查）
17:00 知识蒸馏的力量：8x A100训练5小时
18:00 测试结果：跨域泛化才是关键
21:00 集成到Milvus：未来开箱即用
22:00 系列联动：从AI记忆到Paged Attention到语义高亮
24:30 隐形Bug总结：你系统里还有多少这样的问题
核心观点
· 大多数RAG系统存在一个被忽视的体验裂缝：检索语义、高亮关键词
· 搜"iPhone性能"，文档讨论"A15仿生芯片"——检索理解意义，高亮不理解
· LLM能解决但成本毁灭：100并发用户500次LLM调用，每天可能数十万美元
· Zilliz用0.6B参数小模型 + Qwen3蒸馏（含推理解释步骤）解决了速度和成本问题
· 跨域泛化是关键指标：竞争对手领域内好领域外差，这个模型都好
· RAG体验完整链：检索→理解→展示→用户信任，多数系统只做好了前两个
公众号：一支烟花AI
· 欢迎加入社群交流

语义高亮——RAG的隐形Bug

加入我们的 Discord

扫描微信二维码

播放列表