Dom4j详细介绍
Dom4j
1.1 解析概览
将数据存储为XML格式后,程序化地访问这些数据变得至关重要。虽然Java基础的IO操作能够实现这一目标,但这一过程往往既复杂又繁琐,尤其是在处理大型文件或需要频繁读写操作的场景下。为了解决这些问题,开发者们引入了多种XML解析方式及其对应的解析器,旨在简化XML数据的处理过程。
1.2 解析方式与解析器详解
在Java开发中,三种主流的XML解析方式各自拥有其独特的优势和应用场景:
-
DOM(Document Object Model)解析
DOM解析方法将整个XML文档加载到内存中,并构建成一个树状结构的
Document
对象。这种解析方式的主要优点在于,它允许开发者以直观的方式访问XML文档的各个部分,因为元素之间的结构关系在内存中得到了完整保留。因此,DOM非常适合需要进行复杂查询、修改或添加元素到XML文档的场景。然而,对于大型XML文件而言,DOM解析可能会消耗大量内存,甚至导致内存溢出问题。 -
SAX(Simple API for XML)解析
SAX解析器采用了一种更为高效且资源消耗较少的方法来处理XML数据。它不会将整个文档加载到内存中,而是逐行扫描XML文档,并在遇到特定元素或结构时触发相应的事件。这种基于事件的解析方式使得SAX在处理大型文件时具有显著的优势,因为它能够即时释放不再需要的资源。然而,SAX的一个主要限制是它仅支持读取操作,不支持对XML文档的修改。此外,由于其事件驱动的特性,SAX的解析逻辑可能相对复杂,需要开发者编写更多的处理代码。
-
PULL(Android特有)
PULL是Android平台内置的一种XML解析方式,它与SAX在原理上相似,但提供了更多的控制权和灵活性。PULL解析允许开发者从XML流中主动拉取(pull)解析事件,而不是像SAX那样被动接收(push)事件。这种机制使得开发者可以更精确地控制解析过程,特别是在处理复杂或嵌套的XML结构时。然而,需要注意的是,PULL解析方式并非Java标准库的一部分,它主要适用于Android开发环境。
解析器的作用:
解析器是根据不同的解析方式提供具体实现的工具。它们负责将XML文档转换为程序可以操作的格式(如Document
对象、事件流等)。为了方便开发者的使用,许多第三方库提供了易于操作的解析开发包,这些包通常封装了底层的复杂逻辑,提供了更加简洁和直观的API接口。
2 Dom4j的基本使用
2.1 DOM解析原理及结构模型
解析原理
DOM(Document Object Model)解析的核心原理在于将整个XML文档一次性加载到内存中,构建成一个树状结构,即DOM树。这个过程中,XML文档中的每个元素、属性、文本内容等都被映射为内存中的一个对象,最终形成一个完整的Document对象。通过这个Document对象,开发者可以方便地遍历、查询、修改或添加XML文档的内容,因为DOM树在内存中完整地保留了XML文档的结构和关系。
以books.xml
文档为例,当使用DOM解析器对其进行解析时,解析器会读取整个文档内容,并在内存中构建一个与之对应的DOM树。这个DOM树的根节点通常是一个Document对象,它包含了XML文档的所有信息。从Document对象出发,开发者可以逐级访问到XML文档中的各个元素节点、属性节点和文本节点,进而实现对XML文档的操作。
<?xml version="1.0" encoding="UTF-8"?>
<books><book id="0001"> <name>JavaWeb开发教程</name><author>张孝祥</author><sale>100.00元</sale></book><book id="0002"><name>三国演义</name><author>罗贯中</author><sale>100.00元</sale></book>
</books>
2.2 常用的方法
1. 创建SAXReader对象并加载XML文件
SAXReader sr = new SAXReader();
Document doc = sr.read("day15/xml/book.xml");
- SAXReader是Dom4j库中用于读取XML文件的类。这里创建了一个
SAXReader
的实例。 - 使用
sr.read("day15/xml/book.xml")
方法加载位于day15/xml/
目录下的book.xml
文件,并将其解析为一个Document
对象。这个Document
对象代表了整个XML文档的内存中结构。
2. 获取根元素
java复制代码Element rootElement = doc.getRootElement();
- 通过
Document
对象的getRootElement()
方法获取XML文档的根元素。在XML中,根元素是最高级别的元素,其他所有元素都是它的子元素或子元素的子元素。
3. 解析子元素
java复制代码List<Element> bookElements = rootElement.elements("book");
- 使用
Element
对象的elements(String name)
方法获取根元素下所有名为book
的子元素。这个方法返回一个List<Element>
,包含了所有找到的book
元素。
4. 遍历book
元素并解析其内容
for (Element bookElement : bookElements) { // ...
}
- 使用for-each循环遍历
bookElements
列表中的每个book
元素。
在循环体内:
- 使用
attributeValue(String name)
方法获取book
元素的id
属性值。 - 使用
elementText(String name)
方法获取book
元素下名为name
、author
和sale
的子元素的文本内容。这个方法简化了获取子元素文本内容的操作,因为它直接返回了子元素的文本内容,而不是子元素对象本身。
5. 输出结果
- 使用
System.out.println
输出每个book
元素的id
、name
、author
和sale
信息,并在每个book
元素的信息后打印一行分隔符----------------------
,以便于区分不同的book
元素信息。
相关文章:

Dom4j详细介绍
Dom4j 1.1 解析概览 将数据存储为XML格式后,程序化地访问这些数据变得至关重要。虽然Java基础的IO操作能够实现这一目标,但这一过程往往既复杂又繁琐,尤其是在处理大型文件或需要频繁读写操作的场景下。为了解决这些问题,开发者…...
thissuper
this&super 一、 this this关键字表示调用的是当前类的成员变量或者成员方法 一般情况下,可以省略this关键字直接调用成员变量以及成员方法但当方法的形参与成员变量同名时,如果要在方法内使用成员变量,必须添加this关键字指明使用的是…...
cv::normalize()
cv::normalize()函数是OpenCV库中用于对矩阵或图像数据进行归一化处理的工具。归一化是图像处理和计算机视觉中常见的预处理步骤,它可以确保数据在一定范围内,从而有助于后续的处理和算法的稳定性和性能。cv::normalize()函数可以将输入矩阵的值缩放到一…...

【Python快速入门和实践016】Python常用脚本-对视频抽取指定帧数并保存
一、功能介绍 这段代码的功能是从一个视频文件中抽取指定数量的帧,并将这些帧保存为图像文件。步骤如下: 设置路径和参数: video_path:视频文件的路径。image_folder:保存抽取图像的目录。num_frames_to_extract&#…...
[Linux CMD] 目录与文件相关的命令
. 代表次层目录 .. 代表上一层目录 - 代表前一个工作目录 ~ 代表目前使用者身份所在的家目录 ~account 代表account这个使用者的家目录(account是个账号名称)…...

redis面试(十三)公平锁排队代码剖析
我们来看一下第二种redis分布式锁 第一种锁是可重入锁,非公平可重入锁,所谓的非公平可重入锁是什么意思呢?胡乱的争抢,根本没有任何公平性和顺序性可言 第二种锁,可重入锁,公平锁 通过公平锁,…...
冷热数据拆分
订单系统设计方案之如何做历史订单和归档 订单数据越来越多,数据库越来越慢该怎么办? 随着历史订单不断累积,2017年MySQL中订单表数据量已达千万级。之后的订单数据,远远大于亿级 对数据量大的问题,进行了以下优化…...
JavaScript 基础(四)
五、DOM编程 1.常用事件 onload 页面加载后触发事件 onscroll 滚动时触发 onresize 尺寸变化时 onclick 鼠标点击 onmouseover 鼠标悬停 onmouseout 鼠标移出 onmousemove 鼠标移动,会触发多次 onfocus 对象获得光标(焦点)时&#x…...
《机器学习by周志华》学习笔记-神经网络-01神经元模型
1、背景 本书所谈的「人工神经网络」不是生物学意义的神经网络。这是T.Kohonen 1988年在Neural Networks创刊号上给出的定义。 2、概念 2.1、神经网络 关于「神经网络(neural networks)」的研究很早就已经出现过,今天的「神经网络」已经是一个比较大且多学科交叉的领域,其…...
C#中常用的扩展类
/// <summary>/// 常用扩展/// </summary>public static class UsualExtension{public static string[] chineseNumbers { "零", "一", "二", "三", "四", "五", "六", "七", &…...

麒麟v10(ky10.x86_64)升级——openssl-3.2.2、openssh-9.8p1
系统版本: ky10.x86_64 下载安装包并上传 openssh下载地址 https://cdn.openbsd.org/pub/OpenBSD/OpenSSH/portable openssl下载地址 https://openssl-library.org/source/index.html zlib下载地址 https://zlib.net/fossils/ 上传安装包 备份配置文件 cp -r /etc/ssh /et…...
【Unity】有限状态机和抽象类多态
一、介绍 有限状态机是一个用来进行对象状态管理的计算模型。它由一组状态、一个或者多个触发事件以及状态之间的转换条件所组成。 对于任意一个游戏对象,我们可以为其编写一个或者多个状态机,使其能够在不同状态下有不同的决策和运作机制。 核心思想…...

KETTLE调用http传输中文参数的问题
场景:检查服务器异常(hive)服务,就通过http发送一条短信到手机上,内容类似:【通知】 S T A R T D A T E h i v e 服务检测异常 {START_DATE}_hive服务检测异常 STARTDATEhive服务检测异常{DB_ID}&#…...

Gaussian Splatting 在 Ubuntu22.04 下部署
代码:graphdeco-inria/gaussian-splatting (github) 论文:[2308.04079] 3D Gaussian Splatting for Real-Time Radiance Field Rendering (arxiv.org) 1. 禁用自带驱动 Nouveau Ubuntu 自带的显卡驱动,是非Nvida官方版。在后面装cuda的时候,会报驱动不兼容问题。 1.进入…...

ppt中添加页码(幻灯片编号)及问题解决方案
在幻灯片母版中,选择插入 幻灯片编号 右下角显示幻灯片编号 问题一:母版中没有显示编号 原因可能是母版版式中没有设置显示,勾选即可。 问题二:子母版中没有显示幻灯片 将母版中的编号复制到子母版中。 问题三:应用…...

Flutter 初识:对话框和弹出层
Flutter对话框和弹出层小结 对话框AlertDialog属性解析 showDialog属性解析示例 SimpleDialog示例 AboutDialog属性解析示例 Custom Full-Screen Dialog示例 带动画效果的CustomDialog(showGeneralDialog)属性解析示例 自定义Dialog属性解析示例 输入对话…...

启程与远征Ⅳ--人工智能革命尚未发生
人工智能有望彻底改变工作场所。到目前为止,已经有人工智能工具可以取代或增强每一项工作,并使生产力飞速提升。甚至有许多人预测,文案写作等整个行业将在未来几年内被人工智能工具完全取代。但是,如果你抛开炒作,看看…...

Python教程(十五):IO 编程
目录 专栏列表引言基础概念什么是IO? 同步IO vs 异步IO同步IO(Synchronous IO)异步IO(Asynchronous IO) Python中的IO标准IO标准输入和输出 文件IO文件操作的上下文管理器打开文件读取文件操作内存中的数据 高级文件操…...

Qt窗口交互场景、子窗口数据获取
一、前言 在现代软件开发中,图形用户界面(GUI)的设计不仅仅关乎美观,更在于用户体验和功能的无缝衔接。Qt框架以其强大的跨平台能力和丰富的组件库,成为众多开发者构建GUI应用的首选工具。在Qt应用中,窗口…...
【C++学习笔记 18】C++中的隐式构造函数
举个例子 #include <iostream> #include <string>using String std::string;class Entity{ private:String m_Name;int m_Age; public:Entity(const String& name):m_Name(name), m_Age(-1) {}Entity(int age) : m_Name("UnKnown"), m_Age(age) {}…...

利用最小二乘法找圆心和半径
#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …...

React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...

页面渲染流程与性能优化
页面渲染流程与性能优化详解(完整版) 一、现代浏览器渲染流程(详细说明) 1. 构建DOM树 浏览器接收到HTML文档后,会逐步解析并构建DOM(Document Object Model)树。具体过程如下: (…...

React19源码系列之 事件插件系统
事件类别 事件类型 定义 文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...

ABAP设计模式之---“简单设计原则(Simple Design)”
“Simple Design”(简单设计)是软件开发中的一个重要理念,倡导以最简单的方式实现软件功能,以确保代码清晰易懂、易维护,并在项目需求变化时能够快速适应。 其核心目标是避免复杂和过度设计,遵循“让事情保…...

网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...
Oracle11g安装包
Oracle 11g安装包 适用于windows系统,64位 下载路径 oracle 11g 安装包...
十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建
【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...

自然语言处理——文本分类
文本分类 传统机器学习方法文本表示向量空间模型 特征选择文档频率互信息信息增益(IG) 分类器设计贝叶斯理论:线性判别函数 文本分类性能评估P-R曲线ROC曲线 将文本文档或句子分类为预定义的类或类别, 有单标签多类别文本分类和多…...