PdfParser,一个独立的PHP库,提供了多种工具来从PDF文件提取数据。当前,不支持安全文档。该库仍在积极开发中。 因此,用户必须期望使用主版本时BC中断。该项目由Actualys支持 。 先决条件 该库需要PHP 5.3。 PDFParser构建在TCPDF解析器之上。 该库将通过Composer命令行自动下载。…
August 20, 2020
python 解析 pdf文件, parse PDF files and extract elements like text
pdfminer.six
Pdfminer.six是原始PDFMiner的社区维护分支。它是从PDF文档中提取信息的工具。它着重于获取和分析文本数据。Pdfminer.six直接从PDF的源代码中提取页面中的文本。它也可以用来获取文本的确切位置,字体或颜色。
它以模块化方式构建,因此可以轻松替换pdfminer.six的每个组件。您可以实现自己的解释器或渲染设备,以将pdfminer.six的功能用于文本分析的其他目的。
特征
- 完全用Python编写。
- 解析,分析和转换PDF文档。
- PDF-1.7规范支持。(嗯,差不多)。
- CJK语言和垂直书写脚本支持。
- 支持各种字体类型(Type1,TrueType,Type3和CID)。
- 支持提取图像(JPG,JBIG2和位图)。
- 支持RC4和AES加密。
- 目录提取。
- 标记内容提取。
- 自动布局分析。
如何使用
- 安装Python 3.4或更高版本
- 安装
pip install pdfminer.six
- 使用命令行界面从pdf提取文本:
python pdf2txt.py samples/simple1.pdf
本文:python 解析 pdf文件, parse PDF files and extract elements like text