主流解析软件:解析XML的四种主流方案



在平时工作中难免会遇到把XML作为数据存储格式面对目前种类繁多解决方案哪个最适合我们呢?在这篇文章中我对这 4种主流方案做个不完全评测仅仅针对遍历XML这块来测试遍历XML是工作中使用最多(至少我认为)
  测试环境:
  Windows2000ServerSP4、SunJDK1.4.1+Eclipse2.1+Resin2.1.8在Debug模式下测试
  XML文件格式如下:
  <?xmlversion=\"1.0\"encoding=\"GB2312\"?>
  <RESULT>
  <VALUE>
  <NO>A1234</NO>
  <ADDR> 4川省XX县XX镇XX路X段XX号</ADDR>
  </VALUE>
  <VALUE>
  <NO>B1234</NO>
  <ADDR> 4川省XX市XX乡XX村XX组</ADDR>
  </VALUE>
  </RESULT>
  测试思路方法:
  采用JSP端Bean(至于为什么采用JSP来请参考:http://blog.csdn.net/rosen/archive/2004/10/15/138324.aspx)让每种方案分别解析10K、100K、1000K、10000KXML文件计算其消耗时间(单位:毫秒)
  JSP文件:
  <%@pagecontentType=\"text/html;char=gb2312\"%>
  <%@pageimport=\"com.test.*\"%>
  <html>
  <body>
  <%
  Stringargs={\"\"};
  MyXMLReader.(args);
  %>
  </body>
  </html>
  测试
  首先出场是DOM(JAXPCrimson解析器)
  DOM是用和平台和语言无关方式表示XML文档官方W3C标准DOM是以层次结构组织节点或信息片断集合这个层次结构允许开发人员在树中寻找特定信息分析该结构通常需要加载整个文档和构造层次结构然后才能做任何工作由于它是基于信息层次因而DOM被认为是基于树或基于对象DOM以及广义基于树处理具有几个优点首先由于树在内存中是持久因此可以修改它以便应用能对数据和结构作出更改它还可以在任何时候在树中上下导航而不是像SAX那样是次性处理DOM使用起来也要简单得多
  另方面对于特别大文档解析和加载整个文档可能很慢且很耗资源因此使用其他手段来处理这样数据会更好这些基于事件模型比如SAX
  Bean文件:
  packagecom.test;
  importjava.io.*;
  importjava.util.*;
  importorg.w3c.dom.*;
  importjavax.xml.parsers.*;
  publicMyXMLReader{
  publicvoid(Stringarge){
  longlasting=.currentTimeMillis;
  try{
   Filef=File(\"data_10k.xml\");
   DocumentBuilderFactoryfactory=DocumentBuilderFactory.Instance;
   DocumentBuilderbuilder=factory.DocumentBuilder;
   Documentdoc=builder.parse(f);
   NodeListnl=doc.getElementsByTagName(\"VALUE\");
   for(i=0;i<nl.getLength;i){
    .out.pr(\"车牌号码:\"+doc.getElementsByTagName(\"NO\").item(i).getFirstChild.getNodeValue);
    .out.prln(\"车主地址:\"+doc.getElementsByTagName(\"ADDR\").item(i).getFirstChild.getNodeValue);
  }
  }catch(Exceptione){
   e.prStackTrace;
  }
  .out.prln(\"运行时间:\"+(.currentTimeMillis-lasting)+\"毫秒\");
  }
  }

  10k消耗时间:265203219172 [Page]
  100k消耗时间:9172901688919000
  1000k消耗时间:691719675407708375739656
  10000k消耗时间:OutOfMemoryError

  接着是SAX
  这种处理优点非常类似于流媒体优点分析能够立即开始而不是等待所有数据被处理而且由于应用只是在读取数据时检查数据因此不需要将数据存储在内存中这对于大型文档来说是个巨大优点事实上应用甚至不必解析整个文档;它可以在某个条件得到满足时停止解析般来说SAX还比它替代者DOM快许多
  选择DOM还是选择SAX?
  对于需要自己编写代码来处理XML文档开发人员来说选择DOM还是SAX解析模型是个非常重要设计决策
  DOM采用建立树形结构方式访问XML文档而SAX采用事件模型
  DOM解析器把XML文档转化为个包含其内容并可以对树进行遍历用DOM解析模型优点是编程容易开发人员只需要建树指令然后利用navigationAPIs访问所需树节点来完成任务可以很容易添加和修改树中元素然而由于使用DOM解析器时候需要处理整个XML文档所以对性能和内存要求比较高尤其是遇到很大XML文件时候由于它遍历能力DOM解析器常用于XML文档需要频繁改变服务中


  SAX解析器采用了基于事件模型它在解析XML文档时候可以触发系列事件当发现给定tag时候它可以激活个回调思路方法告诉该思路方法制定标签已经找到SAX对内存要求通常会比较低它让开发人员自己来决定所要处理tag特别是当开发人员只需要处理文档中所包含部分数据时SAX这种扩展能力得到了更好体现但用SAX解析器时候编码工作会比较困难而且很难同时访问同个文档中多处区别数据
  Bean文件:
  packagecom.test;
  importorg.xml.sax.*;
  importorg.xml.sax.helpers.*;
  importjavax.xml.parsers.*;

  publicMyXMLReaderextendsDefaultHandler{
  java.util.Stacktags=java.util.Stack;
  publicMyXMLReader{
  super;
  }

  publicvoid(Stringargs){
  longlasting=.currentTimeMillis;
  try{
   SAXParserFactorysf=SAXParserFactory.Instance;
   SAXParsersp=sf.SAXParser;
   MyXMLReaderreader=MyXMLReader;
   sp.parse(InputSource(\"data_10k.xml\"),reader);
  }catch(Exceptione){
   e.prStackTrace;
  }
  .out.prln(\"运行时间:\"+(.currentTimeMillis-lasting)+\"毫秒\");
  }

  publicvoidcharacters(charch,start,length)throwsSAXException{
  Stringtag=(String)tags.peek;
  (tag.equals(\"NO\")){
   .out.pr(\"车牌号码:\"+String(ch,start,length));
  }
  (tag.equals(\"ADDR\")){
  .out.prln(\"地址:\"+String(ch,start,length));
  }
  }

  publicvoidstartElement(
  Stringuri,
  StringlocalName,
  StringqName, [Page]
  Attributesattrs){
  tags.push(qName);
  }
  }

  10k消耗时间:1104710978
  100k消耗时间:344406375422
  1000k消耗时间:3234328136883312
  10000k消耗时间:3257834313317973189030328

  然后是JDOMhttp://www.jdom.org/
  JDOM是成为Java特定文档模型它简化和XML交互并且比使用DOM实现更快由于是第个Java特定模型JDOM直得到大力推广和促进正在考虑通过“Java规范标准请求JSR-102”将它最终用作“Java标准扩展”从2000年初就已经开始了JDOM开发
  JDOM和DOM主要有两方面区别首先JDOM仅使用具体类而不使用接口这在某些方面简化了API但是也限制了灵活性第 2API大量使用了Collections类简化了那些已经熟悉这些类Java开发者使用
  JDOM文档声明其目是“使用20%(或更少)精力解决80%(或更多)Java/XML问题”(根据学习曲线假定为20%)JDOM对于大多数Java/XML应用来说当然是有用并且大多数开发者发现API比DOM容易理解得多JDOM还包括对行为相当广泛检查以防止用户做任何在XML中无意义然而它仍需要您充分理解XML以便做些超出基本工作(或者甚至理解某些情况下)这也许是比学习DOM或JDOM接口都更有意义工作
  JDOM自身不包含解析器它通常使用SAX2解析器来解析和验证输入XML文档(尽管它还可以将以前构造DOM表示作为输入)它包含些转换器以将JDOM表示输出成SAX2事件流、DOM模型或XML文本文档JDOM是在Apache许可证变体下发布开放源码
  Bean文件:
  packagecom.test;
  importjava.io.*;
  importjava.util.*;
  importorg.jdom.*;
  importorg.jdom.input.*;

  publicMyXMLReader{

  publicvoid(Stringarge){
  longlasting=.currentTimeMillis;
  try{
   SAXBuilderbuilder=SAXBuilder;
   Documentdoc=builder.build(File(\"data_10k.xml\"));
   Elementfoo=doc.getRootElement;
   ListallChildren=foo.getChildren;
   for(i=0;i<allChildren.size;i){


    .out.pr(\"车牌号码:\"+((Element)allChildren.get(i)).getChild(\"NO\").getText);
    .out.prln(\"车主地址:\"+((Element)allChildren.get(i)).getChild(\"ADDR\").getText);
   }
  }catch(Exceptione){
   e.prStackTrace;
  }
  .out.prln(\"运行时间:\"+(.currentTimeMillis-lasting)+\"毫秒\");
  }
  }

  10k消耗时间:1256218794
  100k消耗时间:704625640766
  1000k消耗时间:27984307502785930656
  10000k消耗时间:OutOfMemoryError

  最后是DOM4Jhttp://dom4j.sourceforge.net/

  虽然DOM4J代表了完全独立开发结果但最初它是JDOM种智能分支它合并了许多超出基本XML文档表示功能包括集成XPath支持、XMLSchema支持以及用于大文档或流化文档基于事件处理它还提供了构建文档表示选项它通过DOM4JAPI和标准DOM接口具有并行访问功能从2000下半年开始它就直处于开发的中 [Page]
  为支持所有这些功能DOM4J使用接口和抽象基本类思路方法DOM4J大量使用了API中Collections类但是在许多情况下它还提供些替代思路方法以允许更好性能或更直接编码思路方法直接好处是虽然DOM4J付出了更复杂API代价但是它提供了比JDOM大得多灵活性
  在添加灵活性、XPath集成和对大文档处理目标时DOM4J目标和JDOM是:针对Java开发者易用性和直观操作它还致力于成为比JDOM更完整解决方案实现在本质上处理所有Java/XML问题目标在完成该目标时它比JDOM更少强调防止不正确应用行为
  DOM4J是个非常非常优秀JavaXMLAPI具有性能优异、功能强大和极端易用使用特点同时它也是个开放源代码软件Software如今你可以看到越来越多Java软件Software都在使用DOM4J来读写XML特别值得是连SunJAXM也在用DOM4J
  Bean文件:
  packagecom.test;
  importjava.io.*;
  importjava.util.*;
  importorg.dom4j.*;
  importorg.dom4j.io.*;
  publicMyXMLReader{

  publicvoid(Stringarge){
  longlasting=.currentTimeMillis;
  try{
   Filef=File(\"data_10k.xml\");
   SAXReaderreader=SAXReader;
   Documentdoc=reader.read(f);
   Elementroot=doc.getRootElement;
   Elementfoo;
   for(Iteratori=root.elementIterator(\"VALUE\");i.hasNext;){
    foo=(Element)i.next;
    .out.pr(\"车牌号码:\"+foo.elementText(\"NO\"));
    .out.prln(\"车主地址:\"+foo.elementText(\"ADDR\"));
   }
  }catch(Exceptione){
   e.prStackTrace;
  }
  .out.prln(\"运行时间:\"+(.currentTimeMillis-lasting)+\"毫秒\");
  }
  }

  10k消耗时间:1097810931
  100k消耗时间:297359172312
  1000k消耗时间:2281235923442469
  10000k消耗时间:20938199222003121078

  JDOM和DOM在性能测试时表现不佳在测试10M文档时内存溢出在小文档情况下还值得考虑使用DOM和JDOM虽然JDOM开发者已经介绍说明他们期望在正式发行版前专注性能问题但是从性能观点来看它确实没有值得推荐的处另外DOM仍是个非常好选择DOM实现广泛应用于多种编程语言它还是许多其它和XML相关标准基础它正式获得W3C推荐(和基于非标准Java模型相对)所以在某些类型项目中可能也需要它(如在JavaScript中使用DOM)
  SAX表现较好这要依赖于它特定解析方式个SAX检测即将到来XML流但并没有载入到内存(当然当XML流被读入时会有部分文档暂时隐藏在内存中)
  无疑DOM4J是这场测试获胜者目前许多开源项目中大量采用DOM4J例如大名鼎鼎Hibernate也用DOM4J来读取XML配置文件如果不考虑可移植性那就采用DOM4J吧!

Tags:  xml解析 xml解析器 主流域名解析软件 主流解析软件

延伸阅读

最新评论

发表评论