SNOWNLP情感分析报错解决_python

snownlp是python中的一个库，从文件导入数据后调用函数即可进行情感分析。

数据:100条微博评论数据，标签1为正向，0为负向

代码：

# import sys
import pandas as pd #加载pandas
from snownlp import sentiment #加载情感分析模块
from snownlp import SnowNLP
#import importlib

# importlib.reload(sys)
# sys.setdefaultencoding('utf-8')

text=pd.read_excel('./weibo.xlsx',header=0) #读取文本数据
text0=text.iloc[:,0] #提取所有数据(第0列)
print(text0)
# text1=[i.encode("utf-8").decode('utf-8') for i in text0] #上一步提取数据不是字符而是object，所以在这一步进行转码为字符
text1=[i for i in text0]
print(text1)
#
t1=time.time()
sentiment.train('D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/neg.txt', 'D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/pos.txt') #对语料库进行训练，把路径改成相应的位置。我这次练习并没有构建语料库，用了默认的，所以把路径写到了sentiment模块下。
t2=time.time()
print("训练语料库用时",t2-t1)
#
t3=time.time()
senti=[SnowNLP(i).sentiments for i in text1] #遍历每条评论进行预测
t4=time.time()
print("预测用时",t4-t3)
#
newsenti=[]
#
for i in senti:
    if (i>=0.6):
        newsenti.append(1)
    else:
        newsenti.append(0)
text['predict']=newsenti #将新的预测标签增加为text的某一列，所以现在text的第0列为评论文本，第1列为实际标签，第2列为预测标签
counts=0
for j in range(len(text.iloc[:,0])): #遍历所有标签，将预测标签和实际标签进行比较，相同则判断正确。
    if text.iloc[j,2]==text.iloc[j,1]:
        counts+=1
print("准确率为:%f"%(float(counts)/float(len(text))))#输出本次预测的准确率

修改默认编码

import sys
import importlib
importlib.reload(sys)
sys.setdefaultencoding('utf-8')

实际这一部分完全不需要，写了会画蛇添足，Python3字符串默认编码utf-8, 所以sys.setdefaultencoding不存在了，python2需要写。详细可看（都是踩过的坑）Python3异常-AttributeError: module 'sys' has no attribute 'setdefaultencoding_琦彦的博客-CSDN博客_python3 sys.setdefaultencoding

Python 解决：NameError: name 'reload' is not defined 问题_lxw1844912514的博客-CSDN博客

提取数据：

import pandas as pd #加载pandas
text=pd.read_excel('./weibo.xlsx',header=0) #读取文本数据
text0=text.iloc[:,0] #提取所有数据(第0列)
print(text0)
# text1=[i.encode("utf-8").decode('utf-8') for i in text0] #上一步提取数据不是字符而是object，所以在这一步进行转码为字符
text1=[i for i in text0]
print(text1)

转码这一块从本质上来说,编码和解码就是Python中str和bytes这两种字符串类型之间的互相转换。, str包含一个encode方法,使用特定编码将该字符串其转换为一个bytes,这称之为编码。 bytes类包含了一个decode方法,也接受一个编码作为单个必要参数,并返回一个str,这称之为解码。这种转换 *** 作是显式的 *** 作,且必须根据数据被编码时采用的编码类型进行解码。

python3似乎对一切的unicode都那么的友好，当一个字符串里存在unicode的时候，只要字符串是硬编码的，就可以转换成中文打印在控制台上，但是，假如你。。的这段含有‘\u’的unicode编码不是硬编码进脚本的，而是通过requests在网上爬的。。。那么你会发现，你打印出来的，还是长这样的unicode编码，换句话说，解释器这个时候根本就没认出这东西原来是unicode编码，当成普通的字符序列了。

然后本人就想，encode之后在decode不就又回到初始状态了吗，实际 *** 作之后证明是可以的，并不影响运行结果。（这点还请评论区指点一二）

详细可看AttributeError: 'str' object has no attribute 'decode'_微信-支付宝的博客-CSDN博客

训练语料库

from snownlp import sentiment
sentiment.train('D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/neg.txt', 'D:/pythontool/Anaconda/Lib/site-packages/snownlp/sentiment/pos.txt')

语料库为snownlp自带语料，主题为购物评论，所以对购物评论的情感分析准确率较高。

接下来就是对每一条评论进行预测，然后贴标签，再与原标签对比计算准确率。

丛实际运行来看，训练语料需要较长时间，差不多10分钟，预测还是挺快的，由于语料是购物评论，数据是微博数据，所以准确率不高。

跑完才发现预测那块时间写错了，不想再跑一次了哈哈哈。

这是本人的处女作，有不足之处还请多多指教，刚开始接触nlp，希望能和大家多多交流。

参考博客：snownlp 原理_snownlp入门_马福报的博客-CSDN博客

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/714040.html

SNOWNLP情感分析报错解决

发表评论

评论列表（0条）