主流解析软件:解析XML的四种主流方案疯狂代码！

在平时工作中

难免会遇到把XML作为数据存储格式

面对目前种类繁多

解决方案

哪个最适合我们呢？在这篇文章中

我对这 4种主流方案做

个不完全评测

仅仅针对遍历XML这块来测试

遍历XML是工作中使用最多

(至少我认为)

　　测试环境:
　　Windows2000ServerSP4、SunJDK1.4.1+Eclipse2.1+Resin2.1.8

在Debug模式下测试

　　XML文件格式如下:
　　＜?xmlversion=\"1.0\"encoding=\"GB2312\"?＞
　　＜RESULT＞
　　＜VALUE＞
　　＜NO＞A1234＜/NO＞
　　＜ADDR＞ 4川省XX县XX镇XX路X段XX号＜/ADDR＞
　　＜/VALUE＞
　　＜VALUE＞
　　＜NO＞B1234＜/NO＞
　　＜ADDR＞ 4川省XX市XX乡XX村XX组＜/ADDR＞
　　＜/VALUE＞
　　＜/RESULT＞
　　测试思路方法:
　　采用JSP端

Bean(至于为什么采用JSP来

请参考:http://blog.csdn.net/rosen/archive/2004/10/15/138324.aspx)

让每

种方案分别解析10K、100K、1000K、10000K

XML文件

计算其消耗时间(单位:毫秒)

　　JSP文件:
　　＜%@pagecontentType=\"text/html;char

=gb2312\"%＞
　　＜%@pageimport=\"com.test.*\"%＞
　　＜html＞
　　＜body＞
　　＜%
　　Stringargs

={\"\"};
　　MyXMLReader.

(args);
　　%＞
　　＜/body＞
　　＜/html＞
　　测试
　　首先出场

是DOM(JAXPCrimson解析器)
　　DOM是用和平台和语言无关

方式表示XML文档

官方W3C标准

DOM是以层次结构组织

节点或信息片断

集合

这个层次结构允许开发人员在树中寻找特定信息

分析该结构通常需要加载整个文档和构造层次结构

然后才能做任何工作

由于它是基于信息层次

因而DOM被认为是基于树或基于对象

DOM以及广义

基于树

处理具有几个优点

首先

由于树在内存中是持久

因此可以修改它以便应用

能对数据和结构作出更改

它还可以在任何时候在树中上下导航

而不是像SAX那样是

次性

处理

DOM使用起来也要简单得多

　　另

方面

对于特别大

文档

解析和加载整个文档可能很慢且很耗资源

因此使用其他手段来处理这样

数据会更好

这些基于事件

模型

比如SAX

　　Bean文件:
　　packagecom.test;
　　importjava.io.*;
　　importjava.util.*;
　　importorg.w3c.dom.*;
　　importjavax.xml.parsers.*;
　　public

MyXMLReader{
　　public

void

(Stringarge

){
　　longlasting=

.currentTimeMillis

;
　　try{
　　　Filef=

File(\"data_10k.xml\");
　　　DocumentBuilderFactoryfactory=DocumentBuilderFactory.

Instance

;
　　　DocumentBuilderbuilder=factory.

DocumentBuilder

;
　　　Documentdoc=builder.parse(f);
　　　NodeListnl=doc.getElementsByTagName(\"VALUE\");
　　　for(

i=0;i＜nl.getLength

){
　　　　

.out.pr

(\"车牌号码:\"+doc.getElementsByTagName(\"NO\").item(i).getFirstChild

.getNodeValue

);
　　　　

.out.pr

ln(\"车主地址:\"+doc.getElementsByTagName(\"ADDR\").item(i).getFirstChild

.getNodeValue

);
　　}
　　}catch(Exceptione){
　　　e.pr

StackTrace

;
　　}
　　

.out.pr

ln(\"运行时间:\"+(

.currentTimeMillis

-lasting)+\"毫秒\");
　　}
　　}

　　10k消耗时间:265203219172 [Page]
　　100k消耗时间:9172901688919000
　　1000k消耗时间:691719675407708375739656
　　10000k消耗时间:OutOfMemoryError

　　接着是SAX
　　这种处理

优点非常类似于流媒体

优点

分析能够立即开始

而不是等待所有

数据被处理

而且

由于应用

只是在读取数据时检查数据

因此不需要将数据存储在内存中

这对于大型文档来说是个巨大

优点

事实上

应用

甚至不必解析整个文档；它可以在某个条件得到满足时停止解析

般来说

SAX还比它

替代者DOM快许多

　　选择DOM还是选择SAX？
　　对于需要自己编写代码来处理XML文档

开发人员来说

选择DOM还是SAX解析模型是

个非常重要

设计决策

　　DOM采用建立树形结构

方式访问XML文档

而SAX采用

事件模型

　　DOM解析器把XML文档转化为

个包含其内容

树

并可以对树进行遍历

用DOM解析模型

优点是编程容易

开发人员只需要

建树

指令

然后利用navigationAPIs访问所需

树节点来完成任务

可以很容易

添加和修改树中

元素

然而由于使用DOM解析器

时候需要处理整个XML文档

所以对性能和内存

要求比较高

尤其是遇到很大

XML文件

时候

由于它

遍历能力

DOM解析器常用于XML文档需要频繁

改变

服务中

　　SAX解析器采用了基于事件

模型

它在解析XML文档

时候可以触发

系列

事件

当发现给定

tag

时候

它可以激活

个回调思路方法

告诉该思路方法制定

标签已经找到

SAX对内存

要求通常会比较低

它让开发人员自己来决定所要处理

tag

特别是当开发人员只需要处理文档中所包含

部分数据时

SAX这种扩展能力得到了更好

体现

但用SAX解析器

时候编码工作会比较困难

而且很难同时访问同

个文档中

多处区别数据

　　Bean文件:
　　packagecom.test;
　　importorg.xml.sax.*;
　　importorg.xml.sax.helpers.*;
　　importjavax.xml.parsers.*;

　　public

MyXMLReaderextendsDefaultHandler{
　　java.util.Stacktags=

java.util.Stack

;
　　publicMyXMLReader

{
　　super

;
　　}

　　public

void

(Stringargs

){
　　longlasting=

.currentTimeMillis

;
　　try{
　　　SAXParserFactorysf=SAXParserFactory.

Instance

;
　　　SAXParsersp=sf.

SAXParser

;
　　　MyXMLReaderreader=

MyXMLReader

;
　　　sp.parse(

InputSource(\"data_10k.xml\"),reader);
　　}catch(Exceptione){
　　　e.pr

StackTrace

;
　　}
　　

.out.pr

ln(\"运行时间:\"+(

.currentTimeMillis

-lasting)+\"毫秒\");
　　}

　　publicvoidcharacters(charch

start,

length)throwsSAXException{
　　Stringtag=(String)tags.peek

;
　　

(tag.equals(\"NO\")){
　　　

.out.pr

(\"车牌号码:\"+

String(ch,start,length));
　　}
　　

(tag.equals(\"ADDR\")){
　　

.out.pr

ln(\"地址:\"+

String(ch,start,length));
　　}
　　}

　　publicvoidstartElement(
　　Stringuri,
　　StringlocalName,
　　StringqName, [Page]
　　Attributesattrs){
　　tags.push(qName);
　　}
　　}

　　10k消耗时间:1104710978
　　100k消耗时间:344406375422
　　1000k消耗时间:3234328136883312
　　10000k消耗时间:3257834313317973189030328

　　然后是JDOMhttp://www.jdom.org/
　　JDOM

目

是成为Java特定文档模型

它简化和XML

交互并且比使用DOM实现更快

由于是第

个Java特定模型

JDOM

直得到大力推广和促进

正在考虑通过“Java规范标准请求JSR-102”将它最终用作“Java标准扩展”

从2000年初就已经开始了JDOM开发

　　JDOM和DOM主要有两方面区别

首先

JDOM仅使用具体类而不使用接口

这在某些方面简化了API

但是也限制了灵活性

第 2

API大量使用了Collections类

简化了那些已经熟悉这些类

Java开发者

使用

　　JDOM文档声明其目

是“使用20%(或更少)

精力解决80%(或更多)Java/XML问题”(根据学习曲线假定为20%)

JDOM对于大多数Java/XML应用

来说当然是有用

并且大多数开发者发现API比DOM容易理解得多

JDOM还包括对

行为

相当广泛检查以防止用户做任何在XML中无意义

事

然而

它仍需要您充分理解XML以便做

些超出基本

工作(或者甚至理解某些情况下

)

这也许是比学习DOM或JDOM接口都更有意义

工作

　　JDOM自身不包含解析器

它通常使用SAX2解析器来解析和验证输入XML文档(尽管它还可以将以前构造

DOM表示作为输入)

它包含

些转换器以将JDOM表示输出成SAX2事件流、DOM模型或XML文本文档

JDOM是在Apache许可证变体下发布

开放源码

　　Bean文件:
　　packagecom.test;
　　importjava.io.*;
　　importjava.util.*;
　　importorg.jdom.*;
　　importorg.jdom.input.*;

　　public

MyXMLReader{

　　public

void

(Stringarge

){
　　longlasting=

.currentTimeMillis

;
　　try{
　　　SAXBuilderbuilder=

SAXBuilder

;
　　　Documentdoc=builder.build(

File(\"data_10k.xml\"));
　　　Elementfoo=doc.getRootElement

;
　　　ListallChildren=foo.getChildren

;
　　　for(

i=0;i＜allChildren.size

){

　　　　

.out.pr

(\"车牌号码:\"+((Element)allChildren.get(i)).getChild(\"NO\").getText

);
　　　　

.out.pr

ln(\"车主地址:\"+((Element)allChildren.get(i)).getChild(\"ADDR\").getText

);
　　　}
　　}catch(Exceptione){
　　　e.pr

StackTrace

;
　　}
　　

.out.pr

ln(\"运行时间:\"+(

.currentTimeMillis

-lasting)+\"毫秒\");
　　}
　　}

　　10k消耗时间:1256218794
　　100k消耗时间:704625640766
　　1000k消耗时间:27984307502785930656
　　10000k消耗时间:OutOfMemoryError

　　最后是DOM4Jhttp://dom4j.sourceforge.net/

　　虽然DOM4J代表了完全独立

开发结果

但最初

它是JDOM

种智能分支

它合并了许多超出基本XML文档表示

功能

包括集成

XPath支持、XMLSchema支持以及用于大文档或流化文档

基于事件

处理

它还提供了构建文档表示

选项

它通过DOM4JAPI和标准DOM接口具有并行访问功能

从2000下半年开始

它就

直处于开发的中

[Page]
　　为支持所有这些功能

DOM4J使用接口和抽象基本类思路方法

DOM4J大量使用了API中

Collections类

但是在许多情况下

它还提供

些替代思路方法以允许更好

性能或更直接

编码思路方法

直接好处是

虽然DOM4J付出了更复杂

API

代价

但是它提供了比JDOM大得多

灵活性

　　在添加灵活性、XPath集成和对大文档处理

目标时

DOM4J

目标和JDOM是

样

:针对Java开发者

易用性和直观操作

它还致力于成为比JDOM更完整

解决方案

实现在本质上处理所有Java/XML问题

目标

在完成该目标时

它比JDOM更少强调防止不正确

应用

行为

　　DOM4J是

个非常非常优秀

JavaXMLAPI

具有性能优异、功能强大和极端易用使用

特点

同时它也是

个开放源代码

软件Software

如今你可以看到越来越多

Java软件Software都在使用DOM4J来读写XML

特别值得

提

是连Sun

JAXM也在用DOM4J

　　Bean文件:
　　packagecom.test;
　　importjava.io.*;
　　importjava.util.*;
　　importorg.dom4j.*;
　　importorg.dom4j.io.*;
　　public

MyXMLReader{

　　public

void

(Stringarge

){
　　longlasting=

.currentTimeMillis

;
　　try{
　　　Filef=

File(\"data_10k.xml\");
　　　SAXReaderreader=

SAXReader

;
　　　Documentdoc=reader.read(f);
　　　Elementroot=doc.getRootElement

;
　　　Elementfoo;
　　　for(Iteratori=root.elementIterator(\"VALUE\");i.hasNext

;){
　　　　foo=(Element)i.next

;
　　　　

.out.pr

(\"车牌号码:\"+foo.elementText(\"NO\"));
　　　　

.out.pr

ln(\"车主地址:\"+foo.elementText(\"ADDR\"));
　　　}
　　}catch(Exceptione){
　　　e.pr

StackTrace

;
　　}
　　

.out.pr

ln(\"运行时间:\"+(

.currentTimeMillis

-lasting)+\"毫秒\");
　　}
　　}

　　10k消耗时间:1097810931
　　100k消耗时间:297359172312
　　1000k消耗时间:2281235923442469
　　10000k消耗时间:20938199222003121078

　　JDOM和DOM在性能测试时表现不佳

在测试10M文档时内存溢出

在小文档情况下还值得考虑使用DOM和JDOM

虽然JDOM

开发者已经介绍说明他们期望在正式发行版前专注性能问题

但是从性能观点来看

它确实没有值得推荐的处

另外

DOM仍是

个非常好

选择

DOM实现广泛应用于多种编程语言

它还是许多其它和XML相关

标准

基础

它正式获得W3C推荐(和基于非标准

Java模型相对)

所以在某些类型

项目中可能也需要它(如在JavaScript中使用DOM)

　　SAX表现较好

这要依赖于它特定

解析方式

个SAX检测即将到来

XML流

但并没有载入到内存(当然当XML流被读入时

会有部分文档暂时隐藏在内存中)

　　无疑

DOM4J是这场测试

获胜者

目前许多开源项目中大量采用DOM4J

例如大名鼎鼎

Hibernate也用DOM4J来读取XML配置文件

如果不考虑可移植性

那就采用DOM4J吧！

Tags: xml解析 xml解析器主流域名解析软件主流解析软件

主流解析软件:解析XML的四种主流方案

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注