August 20, 2020
python 解析 pdf文件, parse PDF files and extract elements like text
pdfminer.six
Pdfminer.six是原始PDFMiner的社区维护分支。它是从PDF文档中提取信息的工具。它着重于获取和分析文本数据。Pdfminer.six直接从PDF的源代码中提取页面中的文本。它也可以用来获取文本的确切位置,字体或颜色。
它以模块化方式构建,因此可以轻松替换pdfminer.six的每个组件。您可以实现自己的解释器或渲染设备,以将pdfminer.six的功能用于文本分析的其他目的。
查阅“ 阅读文档”中的完整 文档。
特征
完全用Python编写。
解析,分析和转换PDF文档。
PDF-1.7规范支持。(嗯,差不多)。
CJK语言和垂直书写脚本支持。
支持各种… Read More