python如何提取PDF文本

本文为你展示，如何用python把许多pdf文件的文本内容批量提取出来.
首先，我们读入一些模块，以进行文件操作。（推荐学习：python视频教程）
import globimport os
演示目录下，有两个文件夹，分别是pdf和newpdf。
我们指定 pdf 文件所在路径为其中的pdf文件夹。
pdf_path = pdf/
我们希望获得所有 pdf 文件的路径。用glob，一条命令就能完成这个功能。
pdfs = glob.glob({}/*.pdf.format(pdf_path))
看看我们获得的 pdf 文件路径是否正确。
pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf','pdf/面向影子分析的社交媒体竞争情报搜集.pdf','pdf/面向人机协同的移动互联网政务门户探析.pdf']
经验证。准确无误。
下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。
from pdf_extractor import extract_pdf_content
用这个函数，我们尝试从 pdf 文件列表中的第一篇里，抽取内容，并且把文本保存在 content 变量里。
content = extract_pdf_content(pdfs[0])
显然，内容抽取并不完美，页眉页脚等信息都混了进来。不过，对于我们的许多文本分析用途来说，这无关紧要。
更多python相关技术文章，请访问python教程栏目进行学习！
以上就是python如何提取pdf文本的详细内容。

python如何提取PDF文本

VIP推荐