Appearance
量化与内存
为何量化
高维 float32 向量占内存与磁盘大。量化将向量用更低精度表示,在可接受精度损失下:
- 降低 内存 / 磁盘
- 有时提升 检索吞吐
Qdrant 支持多种量化策略(如 Scalar Quantization),具体参数见官方 Quantization 文档。
何时考虑量化
- 单集合 百万级以上 点、维度 256+。
- 延迟要求略放宽、可接受 Recall 小幅下降。
- 已做过 基准测试 对比未量化与量化。
新手建议
- 先用 默认 float32 把链路跑通。
- 用真实数据压测 P99 延迟 与 Recall@k。
- 再按官方指南开启量化并 A/B 对比。
与 Collection 创建
量化往往在 create_collection 时或后续 update collection 中配置;改配置可能触发 重新索引,生产需谨慎窗口。