Rss订阅

首页 »Python » pythonxml:可爱的 Python: 重温 Python 的 XML 工具 »正文

pythonxml:可爱的 Python: 重温 Python 的 XML 工具

来源: 发布时间:星期四, 2009年1月8日浏览:12次评论:0

　　David Mertz 创作

可爱

Python

第

、第 2部分概述了在 Python 中使用XML

然而

在那些最初

文章出现后

Python 中

XML工具有了很大

发展

不幸

是

这些改进中

大多数并不向后兼容

在这个特别部分中

重温了作者先前对XML 工具

讨论

并提供最新

代码举例

　　在许多情况下

Python 是使用 XML 文档

理想语言

像 Perl、REBOL、REXX 和 TCL

样

它是

种灵活

脚本语言

并且有强大

文本操作能力

而且

除了对多数类型

文本文件(或流文件)编码外

XML 文档还编码大量复杂

数据结构

　　继续在 Python 2.0 中对 XML

支持

　　文本处理中常见

“读取几行

并将它们和

些规则表达式比较”样式通常不能很好地适合对 XML 进行彻底语法分析和处理

幸好

Python(和大多数其它语言相比)不仅有处理复杂数据结构

直接思路方法(通常使用类和属性)

还有

系列 XML 相关

模块可以帮助语法分析、处理和生成 XML

　　XML-SIG (专门兴趣组)

成员为维护 Python

系列 XML 工具做了许多工作

和其它 Python 专门兴趣组

样

XML-SIG 要维护邮件发送列表、列表档案、有用

参考大全、文档、标准包和其它资源(请参阅本文后

参考资料)

　　从 Python 2.0 开始

Python 在其标准发行版中包括大多数 XML-SIG 项目

最新

XML-SIG 包可能包含

些 Python 标准发行版中没有

“极端先进”特性

但出于面向绝大多数人

目

-- 包括本文中

讨论 -- Python 2.0

XML 支持将是您感兴趣

幸运

是

早期 Python 版本对 xmllib

基本支持在 Python 2.0+ 下有了很大进步

目前

Python 用户能正常

选择 DOM 、 SAX 和 expat 技术来处理 XML (使用其他编程语言

XML 开发人员将会意识到这些)

　　模块:xmllib

　　xmllib 是

个非验证

低级语法分析器

应用

员使用

xmllib 可以覆盖 XMLParser 类

并提供处理文档元素(如特定或类属标记

或

实体)

思路方法

从 Python 1.5x 到 Python 2.0+ 以来

xmllib

使用思路方法并没变化；在绝大多数情况下更好

选择是使用 SAX 技术

它也是种面向流

技术

对语言和开发者来说更为标准

　　本文中

举例和原来专栏中

相同:包括

个叫做 quotations.dtd

DTD 以及这个 DTD

文档 sample.xml (请参阅参考资料

以获取本文中提到

文件

档案)

以下

代码显示了 sample.xml 中每段引言

前几行

并生成了非常简单

未知标记和实体

ASCII 指示符

经过分析

文本作为连续流来处理

所使用

任何累加器都由

员负责(如标记中

串 (#PCDATA)

或所遇到

标记

列表或词典)

　　清单 1: try_xmllib.py

import
　　　　 xmllib, 　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　QuotationParser
　　　　(xmllib.XMLParser):
　　"""Crude xmllib extractor for quotations.dtd document"""
　　　　　__init__
　　　　(self):
　　　　xmllib.XMLParser.__init__(self)
　　　　self.thisquote = ''　　　　　　　　　　# quotation accumulator　　　　　
　　　　　def
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　handle_data
　　　　(self, data):
　　　　self.thisquote = self.thisquote + data
　　　　　syntax_error
　　　　(self, message):　　　　　　　　　　　　　　
　　　　　pass
　 def
　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　start_quotations
　　　　(self, attrs):　　　　　# top level tag
　　　　　　　　　　　　　　pr
　　　　 '--- Begin Document ---'
　　　　　start_quotation
　　　　(self, attrs):　　　　　　　　　　　　　　
　　　　　pr
　　　　 'QUOTATION:'
　　　　　end_quotation
　　　　(self):　　　　　　　　　　　　　　
　　　　　pr
　　　　 .join(.split(self.thisquote[:230]))+'...',　　　　　　　　　　　　　　
　　　　　pr
　　　　 '('+str(len(self.thisquote))+' s)
'
　　　　self.thisquote = ''
　　　　　unknown_starttag
　　　　(self, tag, attrs):
　　　　self.thisquote = self.thisquote + '{'
　　　　　unknown_endtag
　　　　(self, tag):
　　　　self.thisquote = self.thisquote + '}'
　　　　　unknown_charref
　　　　(self, ref):
　　　　self.thisquote = self.thisquote + '?'
　　　　　unknown_entityref
　　　　(self, ref):
　　　　self.thisquote = self.thisquote + '#'　　　　

　　　　 __name__  '____':
　　parser = QuotationParser
　　　　　　
for
　　　　 c　　　　
in
　　　　 open("sample.xml").read:
　　　　parser.feed(c)
　　parser.close

　　验证

　　您可能需要展望标准 XML 支持

未来

原因是

在进行语法分析

同时需要进行验证

不幸

是

标准 Python 2.0 XML 包并不包括验证型语法分析器

　　xmlproc 是 python 原有

语法分析器

它执行几乎完整

验证

如果需要验证型语法分析器

xmlproc 是 Python 当前唯

选择

而且

xmlproc 提供其它语法分析器所不具备

各种高级和测试接口

　　选择

种语法分析器

　　如果决定使用 XML

简单 API (SAX) -- 它应该用于复杂

事物

其它大部分工具都是在它

基础上建立

-- 将为您完成许多语法分析器

分类工作

xml.sax 模块包含

个自动选择“最佳”语法分析器

设施

在标准 Python 2.0 安装中

唯

能选择

语法分析器是 expat

它是种 C 语言编写

快速扩展

然而

也可以在 $PYTHONLIB/xml/parsers 下安装另

个语法分析器

以备选择

设置语法分析器很简单:

　　清单 2: Python 选择最佳语法分析器

语句

　　　　
import
　　　　 xml.sax
parser = xml.sax.make_parser

　　您还可以通过传递参数来选择特定

语法分析器；但考虑到可移植性 -- 也为了对今后更好

语法分析器

向上兼容性 -- 最佳思路方法是使用 make_parser

来完成工作

　　您可以直接导入 xml.parsers.expat

如果这样做

您就能获得 SAX 界面并不提供

些特殊窍门技巧

这样

xml.parsers.expat 和 SAX 相比有些“低级”

但 SAX 技术非常标准

对面向流

处理也非常好；大多数情况下 SAX

级别正合适

通常情况下

由于 make_parser

已经能获得 expat 提供

性能

因此纯速度

差异很小

　　什么是 SAX

　　考虑到背景原因

回答什么是 SAX

较好答案是:

SAX (XML

简单 API)是 XML 语法分析器

公用语法分析器接口

它允许应用

作者编写使用 XML 语法分析器

应用

但是它却独立于所使用

语法分析器

(将它看作 XML

JDBC

)(Lars Marius Garshol

SAX for Python)　　SAX -- 如同它提供

语法分析器模块

API -- 基本上是

个 XML 文档

顺序处理器

使用它

思路方法和 xmllib 举例极其相似

但更加抽象

应用

员将定义

个 handler 类

而不是语法分析器类

该 handler 类能注册到任何所使用

语法分析器中

必须定义 4 个 SAX 接口(每个接口都有几个思路方法):DocumentHandler、DTDHandler、EntityResolver 和 ErrorHandler

创建语法分析器除非被覆盖

否则它还连接默认接口

这些代码执行和 xmllib 举例相同

任务:

　　清单 3: try_sax.py

"Simple SAX example, updated for Python 2.0+"　　　　
import
　　　　 　　　　
import
　　　　 xml.sax　　　　
from
　　　　 xml.sax.handler　　　　
import
　　　　 *　　　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　
　　　　　QuotationHandler
　　　　　　　　　　　　　　　　(ContentHandler):
　　"""Crude extractor for quotations.dtd compliant XML document"""
　　　　　__init__
　　　　　　　　　　　　　　　　(self):
　　　　self.in_quote = 0
　　　　self.thisquote = ''
　　　　　startDocument
　　　　　　　　　　　　　　　　(self):　　　　　　　　　　　　　　
　　　　　pr
　　　　 '--- Begin Document ---'
　　　　　startElement
　　　　　　　　　　　　　　　　(self, name, attrs):　　　　　　　　　　　　　　
　　　　　
　　　　 name  'quotation':
　　　　　pr
　　　　 'QUOTATION:'
　　　　　　self.in_quote = 1　　　　　　　　　　　　　　
　　　　　:　　　　
　　　　　　self.thisquote = self.thisquote + '{'
　　　　　endElement
　　　　　　　　　　　　　　　　(self, name):　　　　　　　　　　　　　　
　　　　　
　　　　 name  'quotation':
　　　　　pr
　　　　 .join(.split(self.thisquote[:230]))+'...',
　　　　　pr
　　　　 '('+str(len(self.thisquote))+' s)
'
　　　　　　self.thisquote = ''
　　　　　　self.in_quote = 0　　　　　　　　　　　　　　
　　　　　:　　　　
　　　　　　self.thisquote = self.thisquote + '}'
　　　　　characters
　　　　　　　　　　　　　　　　(self, ch):　　　　　　　　　　　　　　
　　　　　
　　　　 self.in_quote:
　　　　　　self.thisquote = self.thisquote + ch　　　　

　　　　 __name__  '____':
　　parser = xml.sax.make_parser
　　handler = QuotationHandler
　　parser.ContentHandler(handler)
　　parser.parse("sample.xml")

　　和 xmllib 相比

上述举例中要注意两件小事: .parse

思路方法处理整个流或

串

所以不必为语法分析器创建循环； .parse

同样能灵活地接收

个文件名、

个文件对象

或是众多

类文件对象(

些具有 .read

方式)

　　包:DOM

　　DOM 是

种 XML 文档

高级树型表示

该模型并非只针对 Python

而是

种普通 XML 模型(请参阅参考资料以获取进

步信息)

Python

DOM 包是基于 SAX 构建

并且包括在 Python 2.0

标准 XML 支持里

由于篇幅所限

没有将代码举例加到本文中

但在 XML-SIG

"Python/XML HOWTO" 中给出了

个极好

总体描述:

文档对象模型为 XML 文档指定了树型表示

顶级文档例子是树

根

它只有

个子代

即顶级元素例子；这个元素有表示内容和子元素

子节点

他们也可以有子代

以此类推

定义

允许随意遍历结果树

访问元素和属性值

插入和删除节点

以及将树转换回 XML

DOM 可以用于修改 XML 文档

可以创建

棵 DOM 树

通过添加新节点和来回移动子树来修改这棵树

然后生成

个新

XML 文档作为输出

您也可以自己构造

棵 DOM 树

然后将它转换成 XML；用这种思路方法生成 XML 输出比仅将 <tag1>...</tag1> 写入文件

思路方法更灵活

　　使用 xml.dom 模块

语法和早期

文章相比有了

些变动

Python 2.0 中自带

DOM 实现被称为 xml.dom.minidom

并提供轻量级和小型版本

DOM

显然

完整

XML-SIG

DOM 中有些试验性

特性并未被放入 xml.dom.minidom 中

但大家并不会注意到这

点

　　生成 DOM 对象很简单；只需:

　　清单 4: 在 XML 文件中创建 Python DOM 对象

　　　　
from
　　　　 xml.dom.minidom　　　　
import
　　　　 parse, parseString
dom1 = parse('mydata.xml')　　　　# parse an XML file by name

　　使用 DOM 对象是种非常直接

OOP 模式

工作

然而

经常在无法立刻简单区分

层级(除了循环列举)中碰到许多类似清单

属性

例如

以下是

段普通

DOM Python 代码片断:

　　清单 5: 通过 Python DOM 节点对象

迭代

　　　　
　　　　　for
　　　　 node　　　　
in
　　　　 dom_node.childNodes:
　　　　　　
　　　　　
　　　　 node.nodeName  '#text':　　　　　　　# PCDATA is a kind of node,
　　　　PCDATA = node.nodeValue　　　　　　　# but not a  subtag　　　　　
　　　　　el
　　　　 node.nodeName  'spam':
　　　　spam_node_list.append(node)　　　　# Create list of <spam> nodes

　　Python 标准介绍说明文档中有

些更详细

DOM 举例

我

早期文章中有关使用 DOM 对象

举例(请参阅参考资料)指出

方向仍然是正确

但是文章发布后至今

些思路方法和属性名称以更改

因此请查阅

下 Python

介绍说明文档

　　模块: pyxie

　　pyxie 模块是在 Python 标准 XML 支持的上构建

它为 XML 文档提供了附加

高级接口

pyxie 将完成两项基本操作:它将 XML 文档转换成

种更易于进行语法分析

基于行

格式；并且它提供了将 XML 文档当作可操作树处理

思路方法

pyxie 所使用

基于行

PYX 格式是不受语言限制

其工具适用于几种语言

总的

文档

PYX 表示和其 XML 表示相比

更易于使用常见

基于行

文本处理工具进行处理

如 grep、sed、awk、bash、perl

或标准 python 模块

如

和 re

根据结果

从 XML 转换到 PYX 可能节省许多工作

　　pyxie 将 XML 文档当作树处理

概念和 DOM 中

思路相似

由于 DOM 标准得到许多编程语言

广泛支持

那么如果 XML 文档

树型表示是必需

大多数

员会使用 DOM 标准而非 pyxie

　　更多模块: xml_pickle 和 xml_object

y

　　我自行开发了处理 XML

高级模块

称为 xml_pickle 和 xml_object

我还在其它地方写过许多类似模块(请参阅参考资料)

在此不必做过多

介绍

当你“用 Python 研究”而不是“用 XML 研究”时

这些模块非常有用

特别是 xml_object

y 自身对

员隐藏了几乎所有

XML 线索

使您在

中充分使用 Python “原始”对象

实际

XML 数据格式几乎被抽象得不可见

同样

xml_pickle 使 Python

员以“原始” Python 对象开始

该对象

数据可以来源于任何源代码

然后把它们(连续地)放入其他用户以后可能需要

XML 格式

专注于互联网--专注于架构

首页 »Python » pythonxml:可爱的 Python: 重温 Python 的 XML 工具 »正文

pythonxml:可爱的 Python: 重温 Python 的 XML 工具

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章