ansj添加自定义词典

ansj添加自定义词典,第1张

网上百度了很多,大部分都是说要修改library.properties的文件,但是这个文件我根本找不到。

后来采用的方法是,首先建立起自己的自定义字典文件,格式为 词\t词性\t频数,比如 手机    n    1000

词典建立好后,在进行分词时,加入如下语句:

Forest forest = null

 forest=Library.makeForest(filepath)//filepath为自定义词典路径

String line = "这是一段测试文字"

List<Term>result = NlpAnalysis.parse(line.trim(),forest).getTerms()

输出的结果就是:

这是

一段

测试

文字

ansj?这个单词没有

分词分为过去分词和现在分词,是舍弃原本动词的用法作为形容词来用的,像是被动语态be+过去分词,本身就是系表结构。I am interested in 我被什么所吸引=我处于被吸引的状态

1.下载Ansj的相关jar包

要用Ansj进行中文分词,必须先下载Ansj的jar包,下载地址可以参考:https://github.com/NLPchina/ansj_seg

2.程序代码

用Ansj进行中文分词的简单代码如下所示:

import org.ansj.splitWord.analysis.ToAnalysis

public class SplitWordsByAnsj {

public static void main(String[] args) {

String words = "中国是世界四大文明古国之一,有着悠久的历史,距今约5000年前,以中原地区为中心开始出现聚落组织进而成国家和朝代,后历经多次演变和朝代更迭,持续时间较长的朝代有夏、商、周、汉、晋、唐、宋、元、明、清等。中原王朝历史上不断与北方游牧民族交往、征战,众多民族融合成为中华民族。20世纪初辛亥革命后,中国的君主政体退出历史舞台,取而代之的是共和政体。1949年中华人民共和国成立后,在中国大陆建立了人民代表大会制度的政体。中国有着多彩的民俗文化,传统艺术形式有诗词、戏曲、书法和国画等,春节、元宵、清明、端午、中秋、重阳等是中国重要的传统节日。"

System.out.println(ToAnalysis.parse(words))

}

}

3.分词结果

例子中对那一段中文的分词结果如下所示:

[中国, 是, 世界, 四, 大, 文明, 古, 国, 之一, ,, 有着, 悠久, 的, 历史, ,, 距, 今, 约, 5000, 年前, ,, 以, 中原, 地区, 为, 中心, 开始, 出现, 聚落, 组织, 进而, 成, 国家, 和, 朝代, ,, 后, 历经, 多次, 演变, 和, 朝代, 更迭, ,, 持续, 时间, 较, 长, 的, 朝代, 有, 夏, 、, 商, 、, 周, 、, 汉, 、, 晋, 、, 唐, 、, 宋, 、, 元, 、, 明, 、, 清, 等, 。, 中原, 王朝, 历史, 上, 不断, 与, 北方, 游牧, 民族, 交往, 、, 征战, ,, 众多, 民族, 融合, 成为, 中华民族, 。, 20, 世纪, 初, 辛亥革命, 后, ,, 中国, 的, 君主, 政体, 退出, 历史, 舞台, ,, 取而代之, 的, 是, 共和, 政体, 。, 1949年, 中华人民共和国, 成立, 后, ,, 在, 中国, 大陆, 建立, 了, 人民, 代表大会, 制度, 的, 政体, 。, 中国, 有着, 多, 彩, 的, 民俗, 文化, ,, 传统, 艺术, 形式, 有, 诗词, 、, 戏曲, 、, 书法, 和, 国画, 等, ,, 春节, 、, 元宵, 、, 清明, 、, 端午, 、, 中秋, 、, 重阳, 等, 是, 中国, 重要, 的, 传统, 节日, 。]


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/bake/11443181.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存