dis_java_内存溢出

算分过程:

best fields策略:dis_max

最佳实现

Tie Breaker

相关知识可以点击这里查看

搜索title和body中包含brown 或者fox的文档

期待结果是doc2,结果是doc1排在了doc2前面

算分过程:

计算每个document的relevance score：每个query的分数相加，乘以matched query数量，除以总query数量

算一下doc1的分数

{ "match": { "title": "brown fox" }}，针对doc1，是有一个分数的
{ "match": {"body": "brown fox" }}，针对doc1，也是有一个分数的

所以是两个分数加起来，比如说，1.1 + 1.2 = 2.3
matched query数量 = 2
总query数量 = 2

2.3 * 2 / 2 = 2.3

算一下doc5的分数

{ "match": { "title": "brown fox" }}，针对doc2，是没有分数的
{ "match": { "body": ""brown fox" }}，针对doc2，是有一个分数的

所以说，只有一个query是有分数的，比如2.3
matched query数量 = 1
总query数量 = 2

2.3 * 1 / 2 = 1.15

doc5的分数 = 1.15 < doc4的分数 = 2.3

所以doc1的结果排在doc2之前

best fields策略:dis_max

best fields策略，就是说，搜索到的结果，应该是某一个field中匹配到了尽可能多的关键词，被排在前面；而不是尽可能多的field匹配到了少数的关键词，排在了前面
dis_max语法，直接取多个query中，分数最高的那一个query的分数即可

{ "match": { "title": "java solution" }}，针对doc4，是有一个分数的，1.1
{ "match": { "content": "java solution" }}，针对doc4，也是有一个分数的，1.2
取最大分数，1.2

{ "match": { "title": "java solution" }}，针对doc5，是没有分数的
{ "match": { "content": "java solution" }}，针对doc5，是有一个分数的，2.3
取最大分数，2.3

然后doc4的分数 = 1.2 < doc5的分数 = 2.3，所以doc5就可以排在更前面的地方，符合我们的需要

最佳实现

GET /blogs/_search
{
"query": {
"dis_max": {
"queries": [
{"match": {"title": "brown fox"}},
{"match": {"body": "brown fox"}}
]
}
}
}

Tie Breaker

可能在实际场景中出现的一个情况是这样的：

（1）某个帖子，doc1，title中包含java，content不包含java beginner任何一个关键词
（2）某个帖子，doc2，content中包含beginner，title中不包含任何一个关键词
（3）某个帖子，doc3，title中包含java，content中包含beginner
（4）最终搜索，可能出来的结果是，doc1和doc2排在doc3的前面，而不是我们期望的doc3排在最前面

dis_max只取某一个query最大的分数，完全不考虑其他query的分数

使用tie_breaker将其他query的分数也考虑进去
tie_breaker参数的意义，在于说，将其他query的分数，乘以tie_breaker，然后综合与最高分数的那个query的分数，综合在一起进行计算
除了取最高分以外，还会考虑其他的query的分数
tie_breaker的值，在0~1之间，是个小数，就ok

GET /blogs/_search
{
"query": {
"dis_max": {
"queries": [
{"match": {"title": "brown fox"}},
{"match": {"body": "brown fox"}}
],
"tie_breaker": 0.3
}
}
}

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/727089.html

dis

发表评论

评论列表（0条）