Skip to content

混合检索与 RRF

为什么需要混合检索

纯向量检索擅长语义,但有时需要:

  • 精确匹配(SKU、法规编号)
  • 关键词命中与向量结果融合

Qdrant 支持 稠密向量 + 稀疏向量多路召回再融合 等能力(随版本演进,以官方文档为准)。

RRF(Reciprocal Rank Fusion)

一种无需训练的融合方式:对多路检索结果按排名给分,再合并排序。思路简述:

  1. 路 A(向量)得到排名列表;路 B(如 BM25)得到另一排名列表。
  2. 对每个文档按 RRF 公式累加分数(与名次的倒数相关)。
  3. 按总分排序得到最终列表。

具体 API 是否在服务端一键完成、或需在应用层合并,取决于当前 Qdrant 版本与客户端;实现 RAG 时可在 应用层 用向量 top_k + 关键词 top_k 做 RRF,逻辑清晰。

实践建议(新手)

  1. 先把单向量 + filter 做稳。
  2. 有明确关键词需求时,再加 全文索引 或外接搜索引擎,最后在应用层 去重 + RRF
  3. 查阅官方 Hybrid Search 章节获取最新一键方案。

小结

混合检索是 RAG 进阶话题;本书 简易 RAG 一章以单向量检索为主,可在此基础上扩展。