向量检索与 Embedding

为什么需要向量

人类说「这段话和那段话意思相近」，计算机无法直接「理解」文字。常见做法是：用模型把文本（或图像等）映射成一个固定长度的浮点数组，即 Embedding（嵌入向量）。

因此：Qdrant 存的是向量 + 可选元数据；向量一般由外部模型生成。

常见来源包括：

重要约定：同一 Collection 内，所有向量的维度必须一致，且应与建 Collection 时指定的 size 一致。

text

原始数据（文档/图片…）
    → 切块/预处理
    → Embedding 模型 → 向量
    → 写入 Qdrant（可带 Payload：文件名、chunk_id…）

查询时：

text

用户问题 → Embedding → 查询向量 → Qdrant 搜索 top_k → 得到 Payload / 文本 → 下游（如 LLM）

下一节我们把这些落到 Qdrant 的术语上：Collection、Point、Payload。