Appearance
距离度量
三种常用类型
创建 Collection 时必选 distance:
| 类型 | 直觉 | 常见用途 |
|---|---|---|
| Cosine | 向量夹角,与长度关系弱 | 文本 Embedding 最常用 |
| Euclid(L2) | 欧氏空间直线距离 | 某些图像特征、需考虑幅值时 |
| Dot | 点积,与长度相关 | 向量已归一化时可与 Cosine 相关;部分模型推荐 Dot |
必须与模型/评测时使用的度量一致。多数 sentence-transformers 文档推荐 Cosine;若模型说明写「用 dot product」,可选 Dot 或先对向量归一化再用 Cosine(需按模型文档)。
Cosine 为何适合文本
文本 Embedding 常已近似落在单位球附近,Cosine 对「语义方向」敏感,对向量模长不敏感,鲁棒性较好。
检索分数(score)
不同客户端/API 可能返回 相似度越大越好 或转换为距离;阅读你使用的 SDK 文档中的 SearchResult 说明。对比实验时固定 top_k 与 distance 即可。
能否改距离?
不能对已有 Collection 改距离类型;需 新建 Collection 并重新写入向量(或重新索引)。
小结
新手默认:Cosine + 与模型一致的维度。有疑问时查模型官方说明中的 similarity metric。