Appearance
混合检索与 RRF
为什么需要混合检索
纯向量检索擅长语义,但有时需要:
- 精确匹配(SKU、法规编号)
- 关键词命中与向量结果融合
Qdrant 支持 稠密向量 + 稀疏向量 或 多路召回再融合 等能力(随版本演进,以官方文档为准)。
RRF(Reciprocal Rank Fusion)
一种无需训练的融合方式:对多路检索结果按排名给分,再合并排序。思路简述:
- 路 A(向量)得到排名列表;路 B(如 BM25)得到另一排名列表。
- 对每个文档按 RRF 公式累加分数(与名次的倒数相关)。
- 按总分排序得到最终列表。
具体 API 是否在服务端一键完成、或需在应用层合并,取决于当前 Qdrant 版本与客户端;实现 RAG 时可在 应用层 用向量 top_k + 关键词 top_k 做 RRF,逻辑清晰。
实践建议(新手)
- 先把单向量 + filter 做稳。
- 有明确关键词需求时,再加 全文索引 或外接搜索引擎,最后在应用层 去重 + RRF。
- 查阅官方 Hybrid Search 章节获取最新一键方案。
小结
混合检索是 RAG 进阶话题;本书 简易 RAG 一章以单向量检索为主,可在此基础上扩展。