解析人名并在Ruby中匹配它们

解析人名并在Ruby中匹配它们,第1张

概述我正在寻找一个宝石或项目,让我发现两个名字是同一个人.例如 J.R. Smith == John R. Smith == John Smith == John Roy Smith == Johnny Smith 我想你应该已经明白了.我知道什么都不会100%准确,但我想得到的东西至少可以处理大多数情况.我知道最后一个可能需要一个昵称数据库. 我认为一种选择是使用 Levenshtein dista 我正在寻找一个宝石或项目,让我发现两个名字是同一个人.例如

J.R. Smith == John R. Smith == John Smith == John Roy Smith == Johnny Smith

我想你应该已经明白了.我知道什么都不会100%准确,但我想得到的东西至少可以处理大多数情况.我知道最后一个可能需要一个昵称数据库.

解决方法 我认为一种选择是使用 Levenshtein distance的ruby实现

两个字符串之间的Levenshtein距离定义为将一个字符串转换为另一个字符串所需的最小编辑数,允许的编辑 *** 作是单个字符的插入,删除或替换.

然后你可以定义距离小于X的名字(X是你必须调整的数字)来自同一个人.

编辑
通过一点点搜索,我能够找到另一种算法,基于名为Metaphone的语音

它还有很多漏洞,但我认为在这种情况下,每个人都可以做的最好的事情就是为你提供替代方案来测试并看看什么效果最好

总结

以上是内存溢出为你收集整理的解析人名并在Ruby中匹配它们全部内容,希望文章能够帮你解决解析人名并在Ruby中匹配它们所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/1252816.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-07
下一篇 2022-06-07

发表评论

登录后才能评论

评论列表(0条)

保存