Skip to content

距离度量

三种常用类型

创建 Collection 时必选 distance

类型直觉常见用途
Cosine向量夹角,与长度关系弱文本 Embedding 最常用
Euclid(L2)欧氏空间直线距离某些图像特征、需考虑幅值时
Dot点积,与长度相关向量已归一化时可与 Cosine 相关;部分模型推荐 Dot

必须与模型/评测时使用的度量一致。多数 sentence-transformers 文档推荐 Cosine;若模型说明写「用 dot product」,可选 Dot 或先对向量归一化再用 Cosine(需按模型文档)。

Cosine 为何适合文本

文本 Embedding 常已近似落在单位球附近,Cosine 对「语义方向」敏感,对向量模长不敏感,鲁棒性较好。

检索分数(score)

不同客户端/API 可能返回 相似度越大越好 或转换为距离;阅读你使用的 SDK 文档中的 SearchResult 说明。对比实验时固定 top_kdistance 即可。

能否改距离?

不能对已有 Collection 改距离类型;需 新建 Collection 并重新写入向量(或重新索引)。

小结

新手默认:Cosine + 与模型一致的维度。有疑问时查模型官方说明中的 similarity metric