用戶:Xyy23330121/Python/pdf

本頁面和Python文檔：PyPDF2 文檔有關

讀者可以參考Python文檔的內容作為補充。

Python 學習資料目錄

一、開始

二、變量

三、數字 (int float complex)

四、布爾值 (bool) 與 if 語句

五、字符串 (str)

字符串的操作

六、列表 (list) 和元組 (tuple)

七、循環

八、字典 (dict)

字典的簡單操作

九、選學：集合 (set)

十、更多字符串操作

十一、函數

選學：函數註釋

十二、類

十三、異常與try語句

十四、類的方法與Python的計算

十五、import語句與模塊

十六、查漏補缺

十七、日期與時間

日期與時間內容列表

十八、文件系統

十九、更多內容

本章節將基於第三方庫 PyPDF2 來講述如何使用 Python 處理 PDF 文件。

安裝

PyPDF2 需要大於 3.6 版本的 Python 才能正常運行。對於使用從 python.org 下載的 Windows 版本的 Python，我們可以從命令行程序中，輸入以下代碼以安裝 PyPDF2。

python -m pip install PyPDF2

如果連結不暢，或者下載失敗。可以用以下代碼，改為從清華大學提供的託管伺服器中下載 requests。

python -m pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple

安裝可選依賴

PyPDF 的部分功能需要在安裝一些額外的依賴項目才能使用。以下將列出這些功能，與安裝依賴項目的方法。

圖像提取依賴

如果希望提取 PDF 中的圖片，則需要使用以下代碼安裝依賴項目：

python -m pip install PyPDF2[image]

PDF 加密依賴

如果希望使用 AES 加密或解密 PDF 文件，則需要使用以下代碼安裝依賴項目：

python -m pip install PyPDF2[crypto]

如果只需要使用 RC4 加密，則不需要此依賴項。

安裝全部依賴項

可以使用以下代碼直接安裝全部依賴項：

python -m pip install PyPDF2[full]

提取 PDF 中的信息

導入 pdf 文件

PyPDF2 使用 PdfReader 類來讀取 pdf 文件。使用示例如下：

from PyPDF2 import PdfReader

reader = PdfReader("example.pdf") #输入pdf文件所对应的路径，读取该pdf文件

PdfReader 在創建時有三個參數：

stream：表示需要處理的 pdf 文件。這裏可以是經過內置 open() 函數打開的支持讀取的文件對象，也可以是以字符串形式或 os.PathLike 形式的路徑。
strict：（默認為 False）如果為 True，則在讀取 pdf 文件中產生的任何問題都會報錯。
password：（默認為 None）如果 pdf 文件具有密碼，輸入密碼以在導入文件時進行解密。密碼可以為字符串或 bytes 類型。如果不輸入密碼，則不會進行解密。

提取元信息

在導入文件後，我們可以提取 pdf 文件的元信息。

from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")

meta = reader.metadata            #读取元信息
print(len(reader.pages))          #页数
print(meta.author)                #作者（若元信息中没有记录作者，则为空）
print(meta.creator)               #文件创建者（若元信息中不包含创建者，则为空）
print(meta.producer)              #文件提供者（若元信息中不包含提供者，则为空）
print(meta.subject)               #主题（若元信息中不包含主题，则为空）
print(meta.title)                 #标题（若元信息中不包含标题，则为空）

提取文本信息

通過以下方法，還可以提取所選擇頁內的文字。

from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")

page = reader.pages[0]        #选择第 1 页。
print(page.extract_text())    #提取第 1 页的所有文字，以文本形式输出。

在提取時，還可以添加以下參數來篩選提取的文字信息。這些參數必須按關鍵字傳入。

orientations：以整數角度篩選文字朝向，0 為向上，90 為向左，180 為顛倒，270 為向右。可以傳入包含多個角度的整數數組以同時篩選多個朝向。默認為 (0, 90, 180, 270)，即不篩選。
space_width：空格寬度（默認為200.0）
visitor_opperand_before：參見文檔
visitor_opperand_after：參見文檔
visitor_text：參見文檔

提取圖片

可以用以下方式提取指定頁的圖片。

from PyPDF2 import PdfReader
reader = PdfReader("example.pdf")

page = reader.pages[0]
count = 0

for image_file_object in page.images:
    with open(str(count) + image_file_object.name, "wb") as fp:
        fp.write(image_file_object.data)
        count += 1

PDF 加密與解密 =

https://pypdf2.readthedocs.io/en/3.x/user/encryption-decryption.html

合併與分割 PDF 文件

PyPDF2 使用 PdfWriter 類來編輯與輸出 pdf 文件。其基本使用方法如下：

from PyPDF2 import PdfReader, PdfWriter

writer = PdfWriter()              #创建一个 PdfWriter 对象。

with open("new.pdf", "wb") as f: #把 PdfWriter 的内容存储到文件中。
    writer.write(f)

添加頁

批量添加

以下方法用於批量添加一個PDF裏面的頁面。

from PyPDF2 import PdfReader, PdfWriter

writer = PdfWriter()              #创建 writer

with open("document.pdf", "rb") as doc:
    writer.append(doc)            #将 document.pdf 里面的所有内容添加到 writer 的末尾

with open("new.pdf", "wb") as f: #存储 writer
    writer.write(f)

具體來講，PdfWriter.append() 支持以下參數：

fileobj 要添加的頁面所在的 PDF 文件。此項可以支持 read 方法的字節流、PDF 文件的路徑字符串，或者一個 pypdf2.PdfReader 實例。
outline_item 字符串書籤內容。在添加頁面時，會先增加一個書籤，以標記「增加的頁面」的起始位置。
pages 添加的頁面範圍。fileobj 中、僅在該範圍內的頁面會被添加。可以是以下形式：
- pypdf2.PageRange 實例
- (start, stop[, step]) 形式的元組。
- 要添加的頁面組成的列表。比如 [0, 2, 5] 就是添加第0、2和第5頁。
import_outline （默認為False）如果為True，則當頁面具有書籤時，會把書籤也一併添加。
excluded_fields (List) – provide the list of fields/keys to be ignored if 「/Annots」 is part of the list, the annotation will be ignored if 「/B」 is part of the list, the articles will be ignored

https://pypdf2.readthedocs.io/en/3.x/user/merging-pdfs.html https://pypdf2.readthedocs.io/en/3.x/user/cropping-and-transforming.html

修改元信息

我們還可以給 pdf 文件增加元信息。這裏以修改元信息為例：

from PyPDF2 import PdfReader, PdfWriter
writer = PdfWriter()              #创建一个PDF写入对象，作为副本对象。

writer.append("example.pdf")      #将原PDF的所有页面导入副本对象。
                                  #将所需的元数据写入副本对象。
writer.add_metadata(
    {
        "/Author": "Martin",
        "/Producer": "Libre Writer",
    }
)

with open("meta_edit.pdf", "wb") as f: #最后，把副本对象的内容存储到文件中。
    writer.write(f)

給 PDF 文件添加水印

https://pypdf2.readthedocs.io/en/3.x/user/add-watermark.html

註釋與批註

https://pypdf2.readthedocs.io/en/3.x/user/reading-pdf-annotations.html https://pypdf2.readthedocs.io/en/3.x/user/adding-pdf-annotations.html

PDF 表單

https://pypdf2.readthedocs.io/en/3.x/user/forms.html

壓縮 PDF 文件的大小

https://pypdf2.readthedocs.io/en/3.x/user/file-size.html

錯誤

https://pypdf2.readthedocs.io/en/3.x/user/suppress-warnings.html