Skip to content

量化与内存

为何量化

高维 float32 向量占内存与磁盘大。量化将向量用更低精度表示,在可接受精度损失下:

  • 降低 内存 / 磁盘
  • 有时提升 检索吞吐

Qdrant 支持多种量化策略(如 Scalar Quantization),具体参数见官方 Quantization 文档。

何时考虑量化

  • 单集合 百万级以上 点、维度 256+
  • 延迟要求略放宽、可接受 Recall 小幅下降。
  • 已做过 基准测试 对比未量化与量化。

新手建议

  1. 先用 默认 float32 把链路跑通。
  2. 用真实数据压测 P99 延迟Recall@k
  3. 再按官方指南开启量化并 A/B 对比

与 Collection 创建

量化往往在 create_collection 时或后续 update collection 中配置;改配置可能触发 重新索引,生产需谨慎窗口。