博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python读取PDF文档
阅读量:5238 次
发布时间:2019-06-14

本文共 1112 字,大约阅读时间需要 3 分钟。

1 from pdfminer.converter import PDFPageAggregator 2 from pdfminer.layout import LAParams 3 from pdfminer.pdfparser import PDFParser 4 from pdfminer.pdfparser import PDFDocument 5 from pdfminer.pdfinterp import PDFResourceManager 6 from pdfminer.pdfinterp import PDFPageInterpreter 7 from pdfminer.pdfdevice import PDFDevice 8  9 # 获取文档对象10 fp = open("banReport.pdf","rb")11 12 # 创建一个PDF文档解释器13 parser = PDFParser(fp)14 15 # PDF文档的对象16 doc = PDFDocument()17 18 #连接解释器和文档对象19 parser.set_document(doc)20 doc.set_parser(parser)21 22 # 初始化文档23 doc.initialize('')24 25 # 创建PDF资源管理器26 resource = PDFResourceManager()27 28 #参数分析器29 laparam = LAParams()30 31 # 创建一个聚合器32 device = PDFPageAggregator(resource,laparams=laparam)33 # 创建PDF页面解释器34 interpreter = PDFPageInterpreter(resource,device=device)35 36 # 使用文档对象得到页面的集合37 for page in doc.get_pages():38     # 使用页面解释器来读取39     interpreter.process_page(page)40 41     # 使用聚合器来获取内容42     layout = device.get_result()43 44     for out in layout:45         if hasattr(out,"get_text"):46             print(out.get_text())

 

转载于:https://www.cnblogs.com/banshaohuan/p/6877931.html

你可能感兴趣的文章
go 学习笔记(4) ---项目结构
查看>>
java中静态代码块的用法 static用法详解
查看>>
Java线程面试题
查看>>
Paper Reading: Relation Networks for Object Detection
查看>>
Java IO流学习总结
查看>>
day22 01 初识面向对象----简单的人狗大战小游戏
查看>>
mybatis源代码分析:深入了解mybatis延迟加载机制
查看>>
Flask三剑客
查看>>
Hibernate-缓存
查看>>
【BZOJ4516】生成魔咒(后缀自动机)
查看>>
提高PHP性能的10条建议
查看>>
svn“Previous operation has not finished; run 'cleanup' if it was interrupted“报错的解决方法...
查看>>
熟用TableView
查看>>
Java大数——a^b + b^a
查看>>
poj 3164 最小树形图(朱刘算法)
查看>>
百度贴吧图片抓取工具
查看>>
服务器内存泄露 , 重启后恢复问题解决方案
查看>>
ajax post 传参
查看>>
2.1命令行和JSON的配置「深入浅出ASP.NET Core系列」
查看>>
android一些细节问题
查看>>