在所有文档中获取前100个最常用的三个单词短语

在所有文档中获取前100个最常用的三个单词短语,第1张

在所有文档中获取前100个最常用的三个单词短语

您正在寻找的被称为 带状疱疹带状疱疹就像“单词n-
gram”:字符串中多个项的序列组合。(例如,“我们所有人都生活”,“所有人都生活”,“住在一个”,“一个黄色”,“一个黄色潜水艇”)

在这里看看:https :
//www.elastic.co/blog/searching-with-
shingles

基本上,您需要一个带有带状板分析器字段,该分析器仅生成三项带状板:

d性博客文章配置,但具有:

"filter_shingle":{   "type":"shingle",   "max_shingle_size":3,   "min_shingle_size":3,   "output_unigrams":"false"}

在将带状疱疹分析器应用于相关字段(如博客文章中)并 重新索引数据之后
,您应该能够在字段上发出返回简单术语汇总的查询,

body
以查看前一百个3 -词词组。

{  "size" : 0,  "query" : {    "match_all" : {}  },  "aggs" : {    "three-word-phrases" : {      "terms" : {        "field" : "body",        "size"  : 100        }    }  }}


欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/zaji/5012841.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-11-15
下一篇 2022-11-15

发表评论

登录后才能评论

评论列表(0条)

保存