python中怎样处理汉语的同义词用结巴分词_系统运维

python中文分词：结巴分词

中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法

安装（Linux环境）

下载工具包，解压后进入目录下，运行：python setup.py install

模式

默认模式，试图将句子最精确地切开，适合文本分析

全模式，把句子中所有的可以成词的词语都扫描出来，适合搜索引擎

接口

组件只提供jieba.cut 方法用于分词

cut方法接受两个输入参数：

第一个参数为需要分词的字符串

cut_all参数用来控制分词模式

待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

jieba.cut返回的结构是一个可迭代的generator，可以使用for循环来获得分词后得到的每一个词语(unicode)，也可以用list(jieba.cut(...))转化为list

实例

#! -*- coding:utf-8 -*-

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all = True)

print "Full Mode:", ' '.join(seg_list)

seg_list = jieba.cut("我来到北京清华大学")

print "Default Mode:", ' '.join(seg_list)

把语料从数据库提取出来以后就要进行分词啦，我是在linux环境下做的，先把jieba安装好，然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹（我这边是jieba-0.38），把自己的自定义词典（选用，目的是为了分出原始词库中没有的词以及优先分出一些词），停用词词典（选用），需要分词的语料文件，调用jieba的python程序都放到这个文件夹里，就可以用啦。至于词典要什么样的格式，在网上一查就可以了。

之前有看到别的例子用自定义词典替换掉jieba本身词典，但是我试了一下好像效果不行，假设原始词典中有’云‘，’计算‘而没有’云计算‘，我想要分出’云计算‘这个词，加载自定义词典可以成功，但替换原始词典就不一定成功了。（当然我说的也不一定对）

还有停用词词典，我之前是把停用词在程序里存入一个列表，然后分每个词时都循环一遍列表，这样特别浪费时间。后来把停用词做成字典就很快了。

for eachline in fin可避免memory error。如果还是报memory error，那应该就是输入语料文件单行数据多长了。

#!/usr/bin/python #-*- encoding:utf-8 -*- import jieba #导入jieba模块import re

jieba.load_userdict("newdict.txt") #加载自定义词典 import jieba.posseg as pseg

def splitSentence(inputFile, outputFile): #把停用词做成字典

stopwords = {}

fstop = open('stop_words.txt', 'r') for eachWord in fstop:

stopwords[eachWord.strip().decode('utf-8', 'ignore')] = eachWord.strip().decode('utf-8', 'ignore')

fstop.close()

fin = open(inputFile, 'r') #以读的方式打开文件

fout = open(outputFile, 'w') #以写得方式打开文件

jieba.enable_parallel(4) #并行分词

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理

line1 = re.sub("[0-9\s+\.\!\/_,$%^*()?；:-【】+\"\']+|[+——！，:。？、~@#￥%……&*（）]+".decode("utf8"), "".decode("utf8"),line)

wordList = list(jieba.cut(line1)) #用结巴分词，对每行内容进行分词

outStr = ''

for word in wordList: if word not in stopwords:

outStr += word

outStr += ' '

fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件 fin.close()

fout.close()

splitSentence('ss.txt', 'tt.txt')

下面这个程序是对一个文本文件里的内容进行分词的程序：test.py

[python] view plain copy

#!/usr/bin/python

#-*- encoding:utf-8 -*-

import jieba #导入jieba模块

def splitSentence(inputFile, outputFile):

fin = open(inputFile, 'r') #以读的方式打开文件

fout = open(outputFile, 'w') #以写得方式打开文件

for eachLine in fin:

line = eachLine.strip().decode('utf-8', 'ignore') #去除每行首尾可能出现的空格，并转为Unicode进行处理

wordList = list(jieba.cut(line)) #用结巴分词，对每行内容进行分词

outStr = ''

for word in wordList:

outStr += word

outStr += '/ '

fout.write(outStr.strip().encode('utf-8') + '\n') #将分词好的结果写入到输出文件

fin.close()

fout.close()

splitSentence('myInput.txt', 'myOutput.txt')

写完程序之后，在Linux重点输入：python test.py即可运行程序进行分词。

输入的文件内容如下所示：

经过结巴分词后，输出结果如下所示：

注意：第11行的 jieba.cut()返回的结构是一个可迭代的generator，可以用list(jieba.cut(...))转化为list

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/yw/7439745.html

python中怎样处理汉语的同义词用结巴分词

发表评论

评论列表（0条）