python:Python 编写的强大的、通用的解析器疯狂代码！

　　Spark 是

种用 Python 编写

强大

、通用

解析器／编译器框架

在某些方面

Spark 所提供

比 SimpleParse 或其它 Python 解析器提供

都要多

然而

它完全是用 Python 编写

所以速度也会比较慢

David 在本文中讨论了 Spark 模块

给出了

些代码样本

解释了它

用途

并对其应用领域提供了

些建议

　　
　　继“可爱

Python”系列中专门讲述 SimpleParse

前

篇文章的后

我将在本文中继续介绍

些解析

基本概念

并对 Spark 模块进行了讨论

解析框架是

个内容丰富

主题

它值得我们多花时间去全面了解；这两篇文章为读者和我自己都开了

个好头

　　
　　在日常

编程中

我经常需要标识存在于文本文档中

部件和结构

这些文档包括:日志文件、配置文件、定界

数据以及格式更自由

(但还是半结构化

)报表格式

所有这些文档都拥有它们自己

“小语言”

用于规定什么能够出现在文档内

我编写这些非正式解析任务

思路方法总是有点象大杂烩

其中包括定制状态机、正则表达式以及上下文驱动

串测试

这些

中

模式大概总是这样:“读

些文本

弄清是否可以用它来做些什么

然后可能再多读

些文本

直尝试下去

”
　　
　　解析器将文档中部件和结构

描述提炼成简明、清晰和介绍说明性

规则

确定由什么组成文档

大多数正式

解析器都使用扩展巴科斯范式(Extended Backus-Naur Form

EBNF)上

变体来描述它们所描述

语言

“语法”

基本上

EBNF 语法对您可能在文档中找到

部件赋予名称；另外

较大

部件通常由较小

部件组成

小部件在较大

部件中出现

频率和顺序由操作符指定

举例来说

清单 1 是 EBNF 语法 typograph

y.def

我们在 SimpleParse 那篇文章中见到过这个语法(其它工具运行

方式稍有区别):
　　
　　清单 1. typograph

y.def
　　para　　　　:= (plain / markup)+
　　plain　　　 := (word / whitespace / punctuation)+
　　whitespace　:= [ tr]+
　　alphanums　 := [a-zA-Z0-9]+
　　word　　　　:= alphanums, (wordpunct, alphanums)*, contraction?
　　wordpunct　 := [-_]
　　contraction := "'", ('am'/'clock'/'d'/'ll'/'m'/'re'/'s'/'t'/'ve')
　　markup　　　:= emph / strong / module / code / title
　　emph　　　　:= '-', plain, '-'
　　strong　　　:= '*', plain, '*'
　　module　　　:= '[', plain, ']'
　　code　　　　:= "'", plain, "'"
　　title　　　 := '_', plain, '_'
　　punctuation := (safepunct / mdash)
　　mdash　　　 := '--'
　　safepunct　 := [!@#$%^&

|{}:;<>,.?/"]
　　
　　Spark 介绍
　　Spark 解析器和 EBNF 语法有

些共同的处

但它将解析／处理过程分成了比传统

EBNF 语法所允许

更小

组件

Spark

优点在于

它对整个过程中每

步操作

控制都进行了微调

还提供了将定制代码插入到过程中

能力

您如果读过本系列

SimpleParse 那篇文章

您就会回想起我们

过程是比较粗略

:1)从语法(并从源文件)生成完整

标记列表

2)使用标记列表作为定制编程操作

数据

　　
　　Spark 和标准

基于 EBNF

工具相比缺点在于

它比较冗长

而且缺少直接

出现计量符(即表示存在

“+”

表示可能性

“*”和表示有限制性

“?”)

计量符可以在 Spark 记号赋予器(tokenizer)

正则表达式中使用

并可以用解析表达式语法中

递归来进行模拟

如果 Spark 允许在语法表达式中使用计量

那就更好了

另

个值得

提

缺点是

Spark

速度和 SimpleParse 使用

基于 C

底层 mxTextTools 引擎相比逊色很多

　　
　　在“Compiling Little Languages in Python”(请参阅参考资料)中

Spark

创始人 John Aycock 将编译器分成了 4个阶段

本文讨论

问题只涉及到前面两个半阶段

这归咎于两方面原因

是由于文章长度

限制

2是

我们将只讨论前

篇文章提出

同样

相对来说比较简单

“文本标记”问题

Spark 还可以进

步用作完整周期

代码编译器／解释器

而不是只用于我所描述

“解析并处理”

任务

让我们来看看 Aycock 所说

4个阶段(引用时有所删节):
　　
　　扫描

也称词法分析

将输入流分成

列记号

　　解析

也称语法分析

确保记号列表在语法上是有效

　　语义分析

遍历抽象语法树(abstract syntax tree

AST)

次或多次

收集信息并检查输入

makes sense

　　生成代码

再次遍历 AST

这个阶段可能用 C 或汇编直接解释

或输出代码

　　对每个阶段

Spark 都提供了

个或多个抽象类以执行相应步骤

还提供了

个少见

从而特化这些类

Spark 具体类并不象大多数继承模式中

类那样仅仅重新定义或添加特定

思路方法

而是具有两种特性(

般

模式和各阶段和各种父模式都

样)

首先

具体类所完成

大部分工作都在思路方法

文档

串(doc

)中指定

第 2个特殊

是

描述模式

思路方法集将被赋予表明其角色

独特名称

父类反过来包含查找例子

功能以进行操作

内省(

rospective)思路方法

我们在参看举例

时侯会更清楚地认识到这

点

　　
　　识别文本标记
　　我已经用几种其它

思路方法解决了这里

问题

我将

种我称的为“智能 ASCII”

格式用于各种目

这种格式看起来很象为电子邮件和新闻组通信开发

那些协定

出于各种目

我将这种格式自动地转换为其它格式

如 HTML、XML 和 LaTeX

我在这里还要再这样做

次

为了让您直观地理解我

意思

我将在本文中使用下面这个简短

样本:
　　
　　清单 2. 智能 ASCII 样本文本(p.txt)
　　Text with *bold*, and -itals phrase-, and [module]--this
　　should be a good 'practice run'.
　　
　　除了样本文件中

内容

还有另外

点内容是有关格式

但不是很多(尽管

确有

些细微的处是有关标记和标点如何交互

)

　　
　　生成记号
　　我们

Spark“智能 ASCII”解析器需要做

第

件事就是将输入文本分成相关

部件

在记号赋予这

层

我们还不想讨论如何构造记号

让它们维持原样就可以了

稍后我们会将记号序列组合成解析树

　　
　　上面

typograph

y.def 中所示

语法提供了 Spark 词法分析

／扫描

设计指南

请注意

我们只能使用那些在扫描

阶段为“原语”

名称

也就是说

那些包括其它已命名

模式

(复合)模式在解析阶段必须被延迟

除了这样

我们其实还可以直接复制旧

语法

　　
　　清单 3. 删节后

wordscanner.py Spark 脚本
　　

WordScanner(GenericScanner):
　　　　"Tokenize words, punctuation and markup"
　　　　def tokenize(self, input):
　　　　　　self.rv =

　　　　　　GenericScanner.tokenize(self, input)
　　　　　　

self.rv
　　　　def t_whitespace(self, s):
　　　　　　r" [ tr]+ "
　　　　　　self.rv.append(Token('whitespace', ' '))
　　　　def t_alphanums(self, s):
　　　　　　r" [a-zA-Z0-9]+ "
　　　　　　pr

"{word}",
　　　　　　self.rv.append(Token('alphanums', s))
　　　　def t_safepunct(self, s): ...
　　　　def t_bracket(self, s): ...
　　　　def t_asterisk(self, s): ...
　　　　def t_underscore(self, s): ...
　　　　def t_apostrophe(self, s): ...
　　　　def t_dash(self, s): ...
　　
　　

WordPlusScanner(WordScanner):
　　　　"Enhance word/markup tokenization"
　　　　def t_contraction(self, s):
　　　　　　r" (?<=[a-zA-Z])'(am|clock|d|ll|m|re|s|t|ve) "
　　　　　　self.rv.append(Token('contraction', s))
　　　　def t_mdash(self, s):
　　　　　　r' -- '
　　　　　　self.rv.append(Token('mdash', s))
　　　　def t_wordpunct(self, s): ...
　　　　
　　这里有

个有趣

地方

WordScanner 本身是

个完美

扫描

类；但 Spark 扫描

类本身可以通过继承进

步特化:子正则表达式模式在父正则表达式的前匹配

而如果需要

子思路方法／正则表达式可以覆盖父思路方法／正则表达式

所以

WordPlusScanner 将在 WordScanner 的前对特化进行匹配(可能会因此先获取

些字节)

模式文档

串中允许使用任何正则表达式(举例来说

.t_contraction

思路方法包含模式中

个“向后插入”)

　　
　　不幸

是

Python 2.2 在

定程度上破坏了扫描

继承逻辑

在 Python 2.2 中

不管在继承链中

什么地方定义

所有定义过

模式都按字母顺序(按名称)进行匹配

要修正这个问题

您可以在 Spark

_namelist

中修改

行代码:
　　
　　清单 4. 纠正后相应

spark.py

　　def _namelist(instance):
　　　　namelist, namedict,

list =

, {}, [instance.__

__]
　　　　for c in

list:
　　　　　　for b in c.__bases__:
　　　　　　　　

list.append(b)
　　　　　　# for name in dir(c):　 # dir

behavior changed in 2.2
　　　　　　for name in c.__dict__.keys

:　# <-- USE THIS
　　　　　　　　

not namedict.has_key(name):
　　　　　　　　　　namelist.append(name)
　　　　　　　　　　namedict[name] = 1
　　　　

namelist
　　　　
　　我已经向 Spark 创始人 John Aycock 通知了这个问题

今后

版本会修正这个问题

同时

请在您自己

副本中作出修改

　　
　　让我们来看看

python:Python 编写的强大的、通用的解析器

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注