专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »Python » pythonxml:可爱的 Python: 重温 Python 的 XML 工具 »正文

pythonxml:可爱的 Python: 重温 Python 的 XML 工具

来源: 发布时间:星期四, 2009年1月8日 浏览:12次 评论:0
  David Mertz 创作 可爱 Python、第 2部分概述了在 Python 中使用XML然而在那些最初文章出现后Python 中 XML工具有了很大发展不幸这些改进中大多数并不向后兼容在这个特别部分中重温了作者先前对XML 工具讨论并提供最新代码举例

  在许多情况下Python 是使用 XML 文档理想语言像 Perl、REBOL、REXX 和 TCL 它是种灵活脚本语言并且有强大文本操作能力而且除了对多数类型文本文件(或流文件)编码外XML 文档还编码大量复杂数据结构

  继续在 Python 2.0 中对 XML 支持

  文本处理中常见“读取几行并将它们和些规则表达式比较”样式通常不能很好地适合对 XML 进行彻底语法分析和处理幸好Python(和大多数其它语言相比)不仅有处理复杂数据结构直接思路方法(通常使用类和属性)还有系列 XML 相关模块可以帮助语法分析、处理和生成 XML

  XML-SIG (专门兴趣组)成员为维护 Python 系列 XML 工具做了许多工作和其它 Python 专门兴趣组XML-SIG 要维护邮件发送列表、列表档案、有用参考大全、文档、标准包和其它资源(请参阅本文后 参考资料)

  从 Python 2.0 开始Python 在其标准发行版中包括大多数 XML-SIG 项目最新 XML-SIG 包可能包含些 Python 标准发行版中没有“极端先进”特性但出于面向绝大多数人 -- 包括本文中讨论 -- Python 2.0 XML 支持将是您感兴趣幸运早期 Python 版本对 xmllib 基本支持在 Python 2.0+ 下有了很大进步目前Python 用户能正常选择 DOM 、 SAX 和 expat 技术来处理 XML (使用其他编程语言 XML 开发人员将会意识到这些)

  模块:xmllib

  xmllib 是个非验证低级语法分析器应用员使用 xmllib 可以覆盖 XMLParser 类并提供处理文档元素(如特定或类属标记实体)思路方法从 Python 1.5x 到 Python 2.0+ 以来 xmllib 使用思路方法并没变化;在绝大多数情况下更好选择是使用 SAX 技术它也是种面向流技术对语言和开发者来说更为标准

  本文中举例和原来专栏中相同:包括个叫做 quotations.dtd DTD 以及这个 DTD 文档 sample.xml (请参阅 参考资料以获取本文中提到文件档案)以下代码显示了 sample.xml 中每段引言前几行并生成了非常简单未知标记和实体 ASCII 指示符经过分析文本作为连续流来处理所使用任何累加器都由员负责(如标记中串 (#PCDATA)或所遇到标记列表或词典)

  清单 1: try_xmllib.pyimport
     xmllib,     

                                  
     QuotationParser
    (xmllib.XMLParser):
  """Crude xmllib extractor for quotations.dtd document"""
     __init__
    (self):
    xmllib.XMLParser.__init__(self)
    self.thisquote = ''          # quotation accumulator     
     def
                                  
     handle_data
    (self, data):
    self.thisquote = self.thisquote + data
     syntax_error
    (self, message):              
     pass
  def
                                  
     start_quotations
    (self, attrs):     # top level tag
              pr
     '--- Begin Document ---'
     start_quotation
    (self, attrs):              
     pr
     'QUOTATION:'
     end_quotation
    (self):              
     pr
     .join(.split(self.thisquote[:230]))+'...',              
     pr
     '('+str(len(self.thisquote))+' s)
'
    self.thisquote = ''
     unknown_starttag
    (self, tag, attrs):
    self.thisquote = self.thisquote + '{'
     unknown_endtag
    (self, tag):
    self.thisquote = self.thisquote + '}'
     unknown_charref
    (self, ref):
    self.thisquote = self.thisquote + '?'
     unknown_entityref
    (self, ref):
    self.thisquote = self.thisquote + '#'    

     __name__ '____':
  parser = QuotationParser
      
for
     c    
in
     open("sample.xml").read:
    parser.feed(c)
  parser.close


  验证

  您可能需要展望标准 XML 支持未来原因是在进行语法分析同时需要进行验证不幸标准 Python 2.0 XML 包并不包括验证型语法分析器

  xmlproc 是 python 原有语法分析器它执行几乎完整验证如果需要验证型语法分析器 xmlproc 是 Python 当前唯选择而且 xmlproc 提供其它语法分析器所不具备各种高级和测试接口

  选择种语法分析器

  如果决定使用 XML 简单 API (SAX) -- 它应该用于复杂事物其它大部分工具都是在它基础上建立 -- 将为您完成许多语法分析器分类工作 xml.sax 模块包含个自动选择“最佳”语法分析器设施在标准 Python 2.0 安装中能选择语法分析器是 expat 它是种 C 语言编写快速扩展然而也可以在 $PYTHONLIB/xml/parsers 下安装另个语法分析器以备选择设置语法分析器很简单:

  清单 2: Python 选择最佳语法分析器语句    
import
     xml.sax
parser = xml.sax.make_parser


  您还可以通过传递参数来选择特定语法分析器;但考虑到可移植性 -- 也为了对今后更好语法分析器向上兼容性 -- 最佳思路方法是使用 make_parser 来完成工作

  您可以直接导入 xml.parsers.expat 如果这样做您就能获得 SAX 界面并不提供些特殊窍门技巧这样 xml.parsers.expat 和 SAX 相比有些“低级”但 SAX 技术非常标准对面向流处理也非常好;大多数情况下 SAX 级别正合适通常情况下由于 make_parser 已经能获得 expat 提供性能因此纯速度差异很小

  什么是 SAX

  考虑到背景原因回答什么是 SAX 较好答案是:

SAX (XML 简单 API)是 XML 语法分析器公用语法分析器接口它允许应用作者编写使用 XML 语法分析器应用但是它却独立于所使用语法分析器(将它看作 XML JDBC)(Lars Marius GarsholSAX for Python)  SAX -- 如同它提供语法分析器模块 API -- 基本上是个 XML 文档顺序处理器使用它思路方法和 xmllib 举例极其相似但更加抽象应用员将定义个 handler 类而不是语法分析器类该 handler 类能注册到任何所使用语法分析器中必须定义 4 个 SAX 接口(每个接口都有几个思路方法):DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler创建语法分析器除非被覆盖否则它还连接默认接口这些代码执行和 xmllib 举例相同任务:

  清单 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"    
import
         
import
     xml.sax    
from
     xml.sax.handler    
import
     *    

                                  
     QuotationHandler
                (ContentHandler):
  """Crude extractor for quotations.dtd compliant XML document"""
     __init__
                (self):
    self.in_quote = 0
    self.thisquote = ''
     startDocument
                (self):              
     pr
     '--- Begin Document ---'
     startElement
                (self, name, attrs):              
     
     name 'quotation':
     pr
     'QUOTATION:'
      self.in_quote = 1              
     :    
      self.thisquote = self.thisquote + '{'
     endElement
                (self, name):              
     
     name 'quotation':
     pr
     .join(.split(self.thisquote[:230]))+'...',
     pr
     '('+str(len(self.thisquote))+' s)
'
      self.thisquote = ''
      self.in_quote = 0              
     :    
      self.thisquote = self.thisquote + '}'
     characters
                (self, ch):              
     
     self.in_quote:
      self.thisquote = self.thisquote + ch    

     __name__ '____':
  parser = xml.sax.make_parser
  handler = QuotationHandler
  parser.ContentHandler(handler)
  parser.parse("sample.xml")


  和 xmllib 相比上述举例中要注意两件小事: .parse 思路方法处理整个流或所以不必为语法分析器创建循环; .parse 同样能灵活地接收个文件名、个文件对象或是众多类文件对象(些具有 .read 方式)

  包:DOM

  DOM 是种 XML 文档高级树型表示该模型并非只针对 Python而是种普通 XML 模型(请参阅 参考资料以获取进步信息)Python DOM 包是基于 SAX 构建并且包括在 Python 2.0 标准 XML 支持里由于篇幅所限没有将代码举例加到本文中但在 XML-SIG "Python/XML HOWTO" 中给出了个极好总体描述:

文档对象模型为 XML 文档指定了树型表示顶级文档例子是树它只有个子代即顶级元素例子;这个元素有表示内容和子元素子节点他们也可以有子代以此类推定义允许随意遍历结果树访问元素和属性值插入和删除节点以及将树转换回 XMLDOM 可以用于修改 XML 文档可以创建棵 DOM 树通过添加新节点和来回移动子树来修改这棵树然后生成个新 XML 文档作为输出您也可以自己构造棵 DOM 树然后将它转换成 XML;用这种思路方法生成 XML 输出比仅将 <tag1>...</tag1> 写入文件思路方法更灵活  使用 xml.dom 模块语法和早期文章相比有了些变动Python 2.0 中自带 DOM 实现被称为 xml.dom.minidom 并提供轻量级和小型版本 DOM显然完整 XML-SIG DOM 中有些试验性特性并未被放入 xml.dom.minidom 中但大家并不会注意到这

  生成 DOM 对象很简单;只需:

  清单 4: 在 XML 文件中创建 Python DOM 对象    
from
     xml.dom.minidom    
import
     parse, parseString
dom1 = parse('mydata.xml')    # parse an XML file by name


  使用 DOM 对象是种非常直接 OOP 模式工作然而经常在无法立刻简单区分层级(除了循环列举)中碰到许多类似清单属性例如以下是段普通 DOM Python 代码片断:

  清单 5: 通过 Python DOM 节点对象迭代    
     for
     node    
in
     dom_node.childNodes:
      
     
     node.nodeName '#text':       # PCDATA is a kind of node,
    PCDATA = node.nodeValue       # but not a subtag     
     el
     node.nodeName 'spam':
    spam_node_list.append(node)    # Create list of <spam> nodes


  Python 标准介绍说明文档中有些更详细 DOM 举例早期文章中有关使用 DOM 对象举例(请参阅 参考资料)指出方向仍然是正确但是文章发布后至今些思路方法和属性名称以更改因此请查阅下 Python 介绍说明文档

  模块: pyxie

  pyxie 模块是在 Python 标准 XML 支持的上构建它为 XML 文档提供了附加高级接口 pyxie 将完成两项基本操作:它将 XML 文档转换成种更易于进行语法分析基于行格式;并且它提供了将 XML 文档当作可操作树处理思路方法 pyxie 所使用基于行 PYX 格式是不受语言限制其工具适用于几种语言总的文档 PYX 表示和其 XML 表示相比更易于使用常见基于行文本处理工具进行处理如 grep、sed、awk、bash、perl或标准 python 模块 和 re 根据结果从 XML 转换到 PYX 可能节省许多工作



  pyxie 将 XML 文档当作树处理概念和 DOM 中思路相似由于 DOM 标准得到许多编程语言广泛支持那么如果 XML 文档树型表示是必需大多数员会使用 DOM 标准而非 pyxie

  更多模块: xml_pickle 和 xml_objecty

  我自行开发了处理 XML 高级模块称为 xml_pickle 和 xml_objecty 我还在其它地方写过许多类似模块(请参阅 参考资料)在此不必做过多介绍当你“用 Python 研究”而不是“用 XML 研究”时这些模块非常有用特别是 xml_objecty 自身对员隐藏了几乎所有 XML 线索使您在中充分使用 Python “原始”对象实际 XML 数据格式几乎被抽象得不可见同样 xml_pickle 使 Python 员以“原始” Python 对象开始该对象数据可以来源于任何源代码然后把它们(连续地)放入其他用户以后可能需要 XML 格式



标签:pythonxml
0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: