ElasticSearch 搜索类似文档的最佳方法

分享于2022年07月17日 elasticsearch search 问答
【问题标题】:ElasticSearch 搜索类似文档的最佳方法(ElasticSearch Best approach for Searching a similar document)
【发布时间】:2022-01-11 16:46:50
【问题描述】:

我有一组文档,每个文档都可以描述为一组独特的单词(特征) e.g. [12, 45, 56, 78, ...] 。特征数量约为 1k。一个文档中包含的特征可能会出现在另一个文档中。我想返回最相似的文件。最有效的方法是什么?


【解决方案1】:

您可以直接尝试 this type of query ,看看它对您有多好。只需制定您的,可以说是“最高公因数”的参考文档,以获得最大的结果。

附:如果您的术语(“功能”)以某种方式发生变化,那么查看 fuzzy queries 也是有意义的。

  • 我实际上想到了这一点,但在我读到的文档中,max_query_terms 变量最大为 25。鉴于特征在 1000 左右,最终会不会很慢?跨度>