Python信息抽取之乱码解决办法

Python信息抽取之乱码解决办法,第1张

概述Python信息抽取乱码解决办法就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧

Python信息抽取之乱码解决办法

就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧

  信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入MysqL 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<Meta http-equiv="Content-Type" content="text/HTML; charset=UTF-8" />

  以下给出一些流程:(具体各个库不是我这里向说的哦)

 import urllib2   import chardet  HTML = urllib2.urlopen("某网站")  print chardet.detect(HTML) #这里会输出一个字典{'a':0.99999,'enCoding':'utf-8'}

  好,这整个HTML的编码都知道,该插入以utf-8建立的MysqL数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码

if chardet.detect(name)['enCoding'] == 'GB2312':  name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')elif chardet.detect(name)['enCoding'] == 'Big5': name = unicode(name,'Big5','ignore')elif chardet.detect(name)['enCoding'] == 'ascii': name = unicode(name,'ascii','ignore')elif chardet.detect(name)['enCoding'] == 'GBK': name = unicode(name,'GBK','ignore')elif chardet.detect(name)['enCoding'] == 'EUC-JP': name = unicode(name,'EUC-JP','ignore')else:  name = '未知'

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

总结

以上是内存溢出为你收集整理的Python信息抽取之乱码解决办法全部内容,希望文章能够帮你解决Python信息抽取之乱码解决办法所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/1202021.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存