【发布时间】:2022-01-11 16:46:50
【问题描述】:
我有一组文档,每个文档都可以描述为一组独特的单词(特征)
e.g. [12, 45, 56, 78, ...]
。特征数量约为 1k。一个文档中包含的特征可能会出现在另一个文档中。我想返回最相似的文件。最有效的方法是什么?
我有一组文档,每个文档都可以描述为一组独特的单词(特征)
e.g. [12, 45, 56, 78, ...]
。特征数量约为 1k。一个文档中包含的特征可能会出现在另一个文档中。我想返回最相似的文件。最有效的方法是什么?
您可以直接尝试 this type of query ,看看它对您有多好。只需制定您的,可以说是“最高公因数”的参考文档,以获得最大的结果。
附:如果您的术语(“功能”)以某种方式发生变化,那么查看 fuzzy queries 也是有意义的。