Java 中读取 XML 文件

简介

在 Java 开发中，处理 XML 文件是一项常见的任务。XML（可扩展标记语言）以结构化的方式存储数据，广泛应用于数据传输、配置文件等场景。掌握在 Java 中读取 XML 文件的方法，能让开发者有效地从 XML 文档中提取所需信息，为后续的业务逻辑处理提供支持。本文将详细介绍在 Java 中读取 XML 文件的基础概念、使用方法、常见实践以及最佳实践。

基础概念

XML 由元素、属性、文本节点等组成。一个 XML 文件通常有一个根元素，包含多个子元素，每个元素可以有属性和文本内容。例如：

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book category="fiction">
        <title lang="en">Harry Potter</title>
        <author>J.K. Rowling</author>
        <price>29.99</price>
    </book>
</bookstore>

在 Java 中读取 XML 文件，就是将 XML 的内容解析成 Java 程序能够理解和处理的对象结构。不同的解析方式有不同的特点和适用场景。

使用方法

DOM 解析

DOM（Document Object Model）解析将整个 XML 文档加载到内存中，构建成一个树形结构。开发者可以通过操作这个树形结构来访问和修改 XML 的内容。

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;

public class DOMExample {
    public static void main(String[] args) {
        try {
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            Document doc = builder.parse("books.xml");
            doc.getDocumentElement().normalize();

            System.out.println("Root element: " + doc.getDocumentElement().getNodeName());
            NodeList nodeList = doc.getElementsByTagName("book");

            for (int i = 0; i < nodeList.getLength(); i++) {
                Element element = (Element) nodeList.item(i);
                System.out.println("Book category: " + element.getAttribute("category"));
                System.out.println("Title: " + element.getElementsByTagName("title").item(0).getTextContent());
                System.out.println("Author: " + element.getElementsByTagName("author").item(0).getTextContent());
                System.out.println("Price: " + element.getElementsByTagName("price").item(0).getTextContent());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

SAX 解析

SAX（Simple API for XML）解析是一种基于事件的解析方式。它不会将整个 XML 文档加载到内存中，而是在读取文档的过程中触发一系列事件，开发者可以通过实现事件处理器来处理这些事件。

import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.IOException;

public class SAXExample {
    public static void main(String[] args) {
        SAXParserFactory factory = SAXParserFactory.newInstance();
        try {
            SAXParser saxParser = factory.newSAXParser();
            DefaultHandler handler = new DefaultHandler() {
                boolean bTitle = false;
                boolean bAuthor = false;
                boolean bPrice = false;

                @Override
                public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
                    if (qName.equalsIgnoreCase("book")) {
                        System.out.println("Book category: " + attributes.getValue("category"));
                    } else if (qName.equalsIgnoreCase("title")) {
                        bTitle = true;
                    } else if (qName.equalsIgnoreCase("author")) {
                        bAuthor = true;
                    } else if (qName.equalsIgnoreCase("price")) {
                        bPrice = true;
                    }
                }

                @Override
                public void endElement(String uri, String localName, String qName) throws SAXException {
                    bTitle = false;
                    bAuthor = false;
                    bPrice = false;
                }

                @Override
                public void characters(char[] ch, int start, int length) throws SAXException {
                    if (bTitle) {
                        System.out.println("Title: " + new String(ch, start, length));
                    } else if (bAuthor) {
                        System.out.println("Author: " + new String(ch, start, length));
                    } else if (bPrice) {
                        System.out.println("Price: " + new String(ch, start, length));
                    }
                }
            };
            saxParser.parse("books.xml", handler);
        } catch (ParserConfigurationException | SAXException | IOException e) {
            e.printStackTrace();
        }
    }
}

StAX 解析

StAX（Streaming API for XML）解析结合了 DOM 和 SAX 的优点，它是一种拉式解析方式，允许开发者按需读取 XML 文档的内容。

import javax.xml.stream.XMLInputFactory;
import javax.xml.stream.XMLStreamConstants;
import javax.xml.stream.XMLStreamException;
import javax.xml.stream.XMLStreamReader;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

public class StAXExample {
    public static void main(String[] args) {
        XMLInputFactory factory = XMLInputFactory.newInstance();
        try (InputStream inputStream = new FileInputStream("books.xml")) {
            XMLStreamReader reader = factory.createXMLStreamReader(inputStream);
            while (reader.hasNext()) {
                int event = reader.next();
                if (event == XMLStreamConstants.START_ELEMENT) {
                    if (reader.getLocalName().equals("book")) {
                        System.out.println("Book category: " + reader.getAttributeValue(0));
                    } else if (reader.getLocalName().equals("title")) {
                        System.out.println("Title: " + reader.getElementText());
                    } else if (reader.getLocalName().equals("author")) {
                        System.out.println("Author: " + reader.getElementText());
                    } else if (reader.getLocalName().equals("price")) {
                        System.out.println("Price: " + reader.getElementText());
                    }
                }
            }
        } catch (XMLStreamException | IOException e) {
            e.printStackTrace();
        }
    }
}

常见实践

从本地文件读取 XML

上述代码示例展示了从本地文件读取 XML 的方法。通过不同的解析方式，将本地的 XML 文件解析成相应的 Java 对象结构进行处理。

从网络读取 XML

从网络读取 XML 文件，需要使用 URL 和 URLConnection 等类来获取 XML 数据，然后再使用上述解析方式进行解析。

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import org.w3c.dom.Document;
import org.w3c.dom.Element;
import org.w3c.dom.NodeList;
import java.net.URL;
import java.net.URLConnection;

public class NetworkXMLExample {
    public static void main(String[] args) {
        try {
            URL url = new URL("http://example.com/books.xml");
            URLConnection connection = url.openConnection();
            DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
            DocumentBuilder builder = factory.newDocumentBuilder();
            Document doc = builder.parse(connection.getInputStream());
            doc.getDocumentElement().normalize();

            System.out.println("Root element: " + doc.getDocumentElement().getNodeName());
            NodeList nodeList = doc.getElementsByTagName("book");

            for (int i = 0; i < nodeList.getLength(); i++) {
                Element element = (Element) nodeList.item(i);
                System.out.println("Book category: " + element.getAttribute("category"));
                System.out.println("Title: " + element.getElementsByTagName("title").item(0).getTextContent());
                System.out.println("Author: " + element.getElementsByTagName("author").item(0).getTextContent());
                System.out.println("Price: " + element.getElementsByTagName("price").item(0).getTextContent());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

最佳实践

性能优化

选择合适的解析方式：如果 XML 文件较小且需要频繁访问和修改文档结构，DOM 解析是合适的选择；如果 XML 文件较大，SAX 或 StAX 解析更能节省内存。
减少内存占用：使用 SAX 或 StAX 解析时，避免在事件处理过程中创建过多不必要的对象。

错误处理

捕获异常：在解析 XML 文件的过程中，要捕获可能出现的异常，如 ParserConfigurationException、SAXException、XMLStreamException 等，并进行适当的处理。
数据验证：在读取 XML 文件后，可以使用 XML Schema 或 DTD 对数据进行验证，确保数据的合法性。

小结

在 Java 中读取 XML 文件有多种方法，包括 DOM、SAX 和 StAX 解析。每种方法都有其特点和适用场景。在实际开发中，需要根据 XML 文件的大小、结构以及业务需求选择合适的解析方式，并注意性能优化和错误处理。通过掌握这些技术，开发者能够高效地从 XML 文件中提取所需信息，为业务逻辑提供支持。