龙空技术网

软件测试|教你用Python处理PDF文件(一)

测试者穆勒 111

前言:

现在兄弟们对“pythondoc文件”大约比较关注,你们都需要了解一些“pythondoc文件”的相关文章。那么小编同时在网摘上搜集了一些对于“pythondoc文件””的相关文章,希望各位老铁们能喜欢,兄弟们一起来了解一下吧!

前言

我们在工作中,难免会遇到需要处理PDF文件的情况,PDF文件与Word文件不同,内容提取不是很容易,表格和图片都需要特别处理。不过PDF有一个优势,PDF可以跨平台使用,Windows系统,Mac系统都可以打开PDF文件,不像doc文件,需要在word或者类似的软件中才能打开。

但是PDF文件的内容复制并不方便,要是能够使用Python将内容取出来的话,就会很舒服了!本文就来给大家介绍一下Python处理PDF文件的方法。

环境与资源准备

Python有一个非常优秀的处理PDF的第三方库——PyPDF2,这是一个开源免费的库,用于处理PDF文件,能够实现对PDF文件的分离、合并、裁剪、转换、加密、解密等操作。

安装如下:

pip install PyPDF2

资源准备

我们创建了一个PDF文件,文件名为test.pdf,文件第一页内容为拜仁慕尼黑,第二页主要内容为两张图片,第三页主要内容为一个表格。

提取PDF文本内容

在我们获取PDF文件内容前,我们需要先获取一下PDF文件的基本信息,比如页数和页面文本等。代码如下:

from PyPDF2 import PdfReaderreader = PdfReader("test.pdf")# 总页数number_of_pages = len(reader.pages)# 第一页page = reader.pages[0]text = page.extract_text()print(text)--------------------------输出内容如下:拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑   拜仁慕尼黑  
PDF文件合并

同样地,我们也可以实现两个PDF文件的合并,代码如下:

import osfrom PyPDF2 import PdfMerger# pdf文件存放路径src_path = 'files'# 将待拼接的pdf文件以绝对路径的形式放在一个列表里pdf_list = [f for f in os.listdir(src_path) if f.endswith('.pdf')]pdf_list = [os.path.join(src_path, filename) for filename in pdf_list]pdf_merger = PdfMerger()for pdf in pdf_list:    pdf_merger.append(pdf, import_outline=False)pdf_merger.write("merged.pdf")

运行代码之后,我们就可以看到文件夹中多了一个merged.pdf文件,文件包含了合并的PDF文件的内容。

添加水印

如果我们想要为PDF文件添加水印,可以用于防伪等方面,那也是可以使用Python来实现的,代码如下:

from PyPDF2 import PdfWriter, PdfReader# 读取作为水印的pdfwatermark = PdfReader("files/mark.pdf")# 待加水印的pdfreader = PdfReader("files/test.pdf")page = reader.pages[0]# watermark.pdf的第一页作为水印page.merge_page(watermark.pages[0])writer = PdfWriter()writer.add_page(page)# 保存成新的pdfwith open("output.pdf", "wb") as fp:    writer.write(fp)

生成的PDF文件内容如下:

总结

本文主要介绍了使用Python读取PDF文件以及合并多个PDF文件,为PDF文件添加水印功能的实现,后续我们将为大家介绍为PDF加密与解密的操作。

标签: #pythondoc文件