from StringIO import StringIOimport pypdf,osdef getPdfcontent(path): content = "" num_pages = 10 p = file(path,"rb") pdf = pypdf.pdffileReader(p) for i in range(0,num_pages): content += pdf.getPage(i).extractText() + "\n" content = " ".join(content.replace(u"\xa0"," ").strip().split()) return contentif __name__ == '__main__': pdfcontent = StringIO(getPdfcontent(os.path.abspath("adiaylin-aysekulin.pdf")).encode("utf-8","ignore")) for line in pdfcontent: print line.strip() input("Press Enter to continue...")解决方法 你具体得到什么样的错误/意外输出?
根据pyPdf homepage,pypdf不再维护.但是有一个名为PyPDF2(GitHub)的分支承诺“处理更广泛的输入pdf实例”.
也许升级到PyPDF2解决了你的问题,我建议你先试试.
总结以上是内存溢出为你收集整理的用于土耳其语字符的python编码全部内容,希望文章能够帮你解决用于土耳其语字符的python编码所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)