性能与最佳实践

写入流程简述

理解这一点有助于合理设置 refresh_interval 和 Bulk 策略。

默认约 1 秒 refresh 一次。若写入量很大且对近实时要求不高，可适当增大 refresh_interval，减少 refresh 频率，提升写入性能：

http

PUT /my_index/_settings
{
  "index": {
    "refresh_interval": "30s"
  }
}

写入高峰过后可改回 1s。必要时也可在单次请求里用 refresh=false（默认）或 refresh=wait_for 控制行为。

只做筛选、不需要相关度排序时，把条件放在 bool.filter 里，而不是 must。filter 可被缓存，且不参与算分，性能更好。

from + size 过大会拉取大量数据到协调节点，成本高且默认有上限（如 10000）。

用 _source 过滤或排除字段，减少网络与序列化开销：

http

"_source": ["title", "author", "year"]

或 "_source": { "excludes": ["content"] }。

text 与 keyword：需要全文检索用 text，需要精确匹配/排序/聚合用 keyword；常见做法是同一字段用 fields 同时保留 text 与 keyword。
分片数：主分片创建后不可改，需提前估算数据量和增长；单分片几十 GB 以内较常见，避免过多小分片。
按时间滚动：日志等时序数据建议按天/周建索引 + 别名查询，便于删除旧数据、做 ILM 和 Reindex。