Java 操作 PDF 库的全面指南

简介

在 Java 开发中，处理 PDF 文件是一项常见的任务。无论是生成、读取、编辑还是转换 PDF 文件，都需要借助特定的库来实现。本文将深入探讨用于 Java 的 PDF 库，介绍其基础概念、使用方法、常见实践以及最佳实践，帮助开发者更高效地处理 PDF 相关的工作。

基础概念
- 什么是 PDF 库
- 常见的 Java PDF 库
使用方法
- 引入库
- 读取 PDF 文件
- 创建 PDF 文件
- 编辑 PDF 文件
常见实践
- 提取文本
- 添加文本
- 合并 PDF
- 拆分 PDF
最佳实践
- 性能优化
- 内存管理
- 错误处理
小结
参考资料

基础概念

什么是 PDF 库

PDF（Portable Document Format）库是一组工具和类，用于在 Java 应用程序中与 PDF 文件进行交互。这些库提供了各种功能，例如读取 PDF 文件的内容、创建新的 PDF 文件、修改现有 PDF 文件以及提取文本、图像等元素。

常见的 Java PDF 库

iText：一个广泛使用的 Java PDF 库，提供了丰富的 API 用于创建、编辑和转换 PDF 文件。它支持各种 PDF 功能，包括文本、图像、表格、表单等的处理。
Apache PDFBox：Apache 开源项目，专注于 PDF 文件的处理。它可以读取、写入和操作 PDF 文件，提供了简单易用的 API 来实现各种 PDF 相关的任务。
OpenPDF：基于 iText 5 开发的开源库，旨在提供与 iText 5 兼容的 API，同时修复一些问题并添加新功能。

使用方法

引入库

以 Maven 为例，在 pom.xml 文件中添加相应的依赖： - iText：

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itextpdf</artifactId>
    <version>5.5.13</version>
</dependency>

Apache PDFBox：

<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.26</version>
</dependency>

OpenPDF：

<dependency>
    <groupId>com.openpdf</groupId>
    <artifactId>openpdf</artifactId>
    <version>1.3.12</version>
</dependency>

读取 PDF 文件

使用 Apache PDFBox 读取 PDF 文件并打印文本：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class PDFReader {
    public static void main(String[] args) {
        try {
            File file = new File("example.pdf");
            PDDocument document = PDDocument.load(file);
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            System.out.println(text);
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

创建 PDF 文件

使用 iText 创建一个简单的 PDF 文件：

import com.itextpdf.text.Document;
import com.itextpdf.text.DocumentException;
import com.itextpdf.text.Paragraph;
import com.itextpdf.text.pdf.PdfWriter;

import java.io.FileOutputStream;
import java.io.IOException;

public class PDFCreator {
    public static void main(String[] args) {
        Document document = new Document();
        try {
            PdfWriter.getInstance(document, new FileOutputStream("new.pdf"));
            document.open();
            document.add(new Paragraph("Hello, PDF!"));
            document.close();
        } catch (DocumentException | IOException e) {
            e.printStackTrace();
        }
    }
}

编辑 PDF 文件

使用 OpenPDF 在现有 PDF 文件中添加文本：

import com.openpdf.text.Document;
import com.openpdf.text.DocumentException;
import com.openpdf.text.Font;
import com.openpdf.text.Paragraph;
import com.openpdf.text.pdf.PdfContentByte;
import com.openpdf.text.pdf.PdfReader;
import com.openpdf.text.pdf.PdfStamper;

import java.io.FileOutputStream;
import java.io.IOException;

public class PDFEditor {
    public static void main(String[] args) {
        try {
            PdfReader reader = new PdfReader("example.pdf");
            PdfStamper stamper = new PdfStamper(reader, new FileOutputStream("edited.pdf"));
            Document document = new Document(reader.getPageSize(1));
            PdfContentByte contentByte = stamper.getOverContent(1);
            Font font = new Font(Font.FontFamily.HELVETICA, 12);
            Paragraph paragraph = new Paragraph("This is an added text", font);
            document.open();
            document.add(paragraph);
            document.close();
            stamper.close();
            reader.close();
        } catch (IOException | DocumentException e) {
            e.printStackTrace();
        }
    }
}

常见实践

提取文本

使用 Apache PDFBox 提取 PDF 文件中的文本：

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

import java.io.File;
import java.io.IOException;

public class TextExtractor {
    public static void main(String[] args) {
        try {
            File file = new File("example.pdf");
            PDDocument document = PDDocument.load(file);
            PDFTextStripper stripper = new PDFTextStripper();
            String text = stripper.getText(document);
            System.out.println(text);
            document.close();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

添加文本

使用 iText 在 PDF 文件中添加文本：

import com.itextpdf.text.Document;
import com.itextpdf.text.DocumentException;
import com.itextpdf.text.Font;
import com.itextpdf.text.Paragraph;
import com.itextpdf.text.pdf.PdfContentByte;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.PdfStamper;

import java.io.FileOutputStream;
import java.io.IOException;

public class TextAdder {
    public static void main(String[] args) {
        try {
            PdfReader reader = new PdfReader("example.pdf");
            PdfStamper stamper = new PdfStamper(reader, new FileOutputStream("new_example.pdf"));
            PdfContentByte contentByte = stamper.getOverContent(1);
            Font font = new Font(Font.FontFamily.HELVETICA, 12);
            Paragraph paragraph = new Paragraph("Added text", font);
            contentByte.beginText();
            contentByte.setFontAndSize(font.getBaseFont(), font.getSize());
            contentByte.setTextMatrix(100, 700);
            contentByte.showText(paragraph.getContent());
            contentByte.endText();
            stamper.close();
            reader.close();
        } catch (IOException | DocumentException e) {
            e.printStackTrace();
        }
    }
}

合并 PDF

使用 Apache PDFBox 合并多个 PDF 文件：

import org.apache.pdfbox.multipdf.PDFMergerUtility;

import java.io.File;
import java.io.IOException;

public class PDFMerger {
    public static void main(String[] args) {
        PDFMergerUtility merger = new PDFMergerUtility();
        merger.addSource(new File("file1.pdf"));
        merger.addSource(new File("file2.pdf"));
        merger.setDestinationFileName("merged.pdf");
        try {
            merger.mergeDocuments();
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

拆分 PDF

使用 iText 拆分 PDF 文件为多个单页 PDF：

import com.itextpdf.text.Document;
import com.itextpdf.text.DocumentException;
import com.itextpdf.text.pdf.PdfCopy;
import com.itextpdf.text.pdf.PdfImportedPage;
import com.itextpdf.text.pdf.PdfReader;

import java.io.FileOutputStream;
import java.io.IOException;

public class PDFSplitter {
    public static void main(String[] args) {
        try {
            PdfReader reader = new PdfReader("example.pdf");
            int n = reader.getNumberOfPages();
            for (int i = 1; i <= n; i++) {
                Document document = new Document(reader.getPageSizeWithRotation(i));
                PdfCopy copy = new PdfCopy(document, new FileOutputStream("page_" + i + ".pdf"));
                document.open();
                PdfImportedPage page = copy.getImportedPage(reader, i);
                copy.addPage(page);
                document.close();
            }
            reader.close();
        } catch (IOException | DocumentException e) {
            e.printStackTrace();
        }
    }
}

最佳实践

性能优化

批量处理时，使用流处理方式以减少内存占用。
对于大型 PDF 文件，分块读取和处理，避免一次性加载整个文件。

内存管理

及时关闭不再使用的 PDF 文档和相关资源，例如 PDDocument、PdfReader 等。
使用缓存机制来减少重复读取相同内容的开销。

错误处理

对可能出现的异常进行全面捕获和处理，例如 IOException、DocumentException 等。
记录详细的错误日志，以便快速定位和解决问题。

小结

本文介绍了 Java 中处理 PDF 文件的相关库，包括基础概念、使用方法、常见实践以及最佳实践。通过学习这些内容，开发者可以更加熟练地在 Java 应用程序中处理 PDF 文件，实现读取、创建、编辑、合并和拆分等各种功能。在实际开发中，根据项目需求选择合适的库，并遵循最佳实践来优化性能和管理资源，能够提高开发效率和应用程序的稳定性。