August 20, 2020

python 解析 pdf文件, parse PDF files and extract elements like text

By Gideon Python / Wxpython 0 Comments

pdfminer.six

Pdfminer.six是原始PDFMiner的社区维护分支。它是从PDF文档中提取信息的工具。它着重于获取和分析文本数据。Pdfminer.six直接从PDF的源代码中提取页面中的文本。它也可以用来获取文本的确切位置，字体或颜色。

它以模块化方式构建，因此可以轻松替换pdfminer.six的每个组件。您可以实现自己的解释器或渲染设备，以将pdfminer.six的功能用于文本分析的其他目的。

查阅“ 阅读文档”中的完整文档。

特征

完全用Python编写。
解析，分析和转换PDF文档。
PDF-1.7规范支持。（嗯，差不多）。
CJK语言和垂直书写脚本支持。
支持各种字体类型（Type1，TrueType，Type3和CID）。
支持提取图像（JPG，JBIG2和位图）。
支持RC4和AES加密。
目录提取。
标记内容提取。
自动布局分析。

如何使用

安装Python 3.4或更高版本
安装pip install pdfminer.six
使用命令行界面从pdf提取文本：python pdf2txt.py samples/simple1.pdf

本文：python 解析 pdf文件, parse PDF files and extract elements like text

Tags:parse PDF files and extract elements like text, python 解析 pdf文件

About Author

Gideon

Add a Comment