正则表达式:正则表达式话题疯狂代码！

From: www.regexlab.com

引言

本文将逐步讨论

些正则表达式

使用话题

本文为本站基础篇的后

扩展

在阅读本文的前

建议先阅读正则表达式参考文档

文

1. 表达式递归匹配

有时候

我们需要用正则表达式来分析

个计算式中

括号配对情况

比如

使用表达式 "\( [^)]* \)" 或者 "\( .*? \)" 可以匹配

对小括号

但是如果括号内还嵌有

层括号

话

如 "( ( ) )"

则这种写法将不能够匹配正确

得到

结果是 "( ( )"

类似情况

还有 HTML 中支持嵌套

标签如 "<font> </font>" 等

本节将要讨论

是

想办法把有嵌套

成对括号或者成对标签匹配出来

匹配未知层次嵌套:

有

正则表达式引擎

专门针对这种嵌套提供了支持

并且在栈空间允许

情况下

能够支持任意未知层次

嵌套:比如 Perl

PHP

GRETA 等

在 PHP 和 GRETA 中

表达式中使用 "(?R)" 来表示嵌套部分

匹配嵌套了未知层次

"小括号对"

表达式写法如下:"\( ([^

] | (?R))* \)"

[Perl 和 PHP

举例代码]

匹配有限层次嵌套:

对于不支持嵌套

正则表达式引擎

只能通过

定

办法来匹配有限层次

嵌套

思路如下:

第

步

写

个不能支持嵌套

表达式:"\( [^

]* \)"

"<font>((?!</?font>).)*</font>"

这两个表达式在匹配有嵌套

文本时

只匹配最内层

第 2步

写

个可匹配嵌套层

表达式:"\( ([^

] | \( [^

]* \))* \)"

这个表达式在匹配嵌套层数大于

时

只能匹配最里面

两层

同时

这个表达式也能匹配没有嵌套

文本或者嵌套

最里层

匹配嵌套

层

"<font>" 标签

表达式为:"<font>((?!</?font>).|(<font>((?!</?font>).)*</font>))*</font>"

这个表达式在匹配 "<font>" 嵌套层数大于

文本时

只匹配最里面

两层

第 3步

找到匹配嵌套(n)层

表达式和嵌套(n-1)层

表达式的间

关系

比如

能够匹配嵌套(n)层

表达式为:

[标记头] ( [匹配 [标记头] 和 [标记尾] 的外

表达式] | [匹配 n-1 层

表达式] )* [标记尾]

回头来看前面编写

“可匹配嵌套

层”

表达式:

　 \( ( [^

] | \(([^

])*\) )* \)
<font> ( (?!</?font>). | (<font>((?!</?font>).)*</font>) )* </font>
　　　　　　　
PHP 和 GRETA

简便的处在于

匹配嵌套(n-1)层

表达式用 (?R) 表示:
\( ( [^

] | (?R) )* \)

第 4步

依此类推

可以编写出匹配有限(n)层

表达式

这种方式写出来

表达式

虽然看上去很长

但是这种表达式经过编译后

匹配效率仍然是很高

2. 非贪婪匹配效率

可能有不少

人和我

样

有过这样

经历:当我们要匹配类似 "<td>内容</td>" 或者 "[b]加粗[/b]" 这样

文本时

我们根据正向预搜索功能写出这样

表达式:"<td>([^<]|<(?!/td>))*</td>" 或者 "<td>((?!</td>).)*</td>"

当发现非贪婪匹配的时

恍然大悟

同样功能

表达式可以写得如此简单:"<td>.*?</td>"

顿时间如获至宝

凡是按边界匹配

地方

尽量使用简捷

非贪婪匹配 ".*?"

特别是对于复杂

表达式来说

采用非贪婪匹配 ".*?" 写出来

表达式

确是简练了许多

然而

当

个表达式中

有多个非贪婪匹配时

或者多个未知匹配次数

表达式时

这个表达式将可能存在效率上

陷阱

有时候

匹配速度慢得莫名奇妙

甚至开始怀疑正则表达式是否实用

效率陷阱产生:

在本站基础文章里

对非贪婪匹配

描述中说到:“如果少匹配就会导致整个表达式匹配失败

时候

和贪婪模式类似

非贪婪模式会最小限度

再匹配

些

以使整个表达式匹配成功

”

具体

匹配过程是这样

"非贪婪部分" 先匹配最少次数然后尝试匹配 "右侧表达式"
如果右侧表达式匹配成功则整个表达式匹配结束如果右侧表达式匹配失败则 "非贪婪部分" 将增加匹配次然后再尝试匹配 "右侧表达式"
如果右侧表达式又匹配失败则 "非贪婪部分" 将再增加匹配次再尝试匹配 "右侧表达式"
依此类推最后得到结果是 "非贪婪部分" 以尽可能少匹配次数使整个表达式匹配成功或者最终仍然匹配失败

当

个表达式中有多个非贪婪匹配

以表达式 "d(\w+?)d(\w+?)z" 为例

对于第

个括号中

"\w+?" 来说

右边

"d(\w+?)z" 属于它

"右侧

表达式"

对于第 2个括号中

"\w+?" 来说

右边

"z" 属于它

"右侧

表达式"

当 "z" 匹配失败时

第 2个 "\w+?" 会 "增加匹配

次"

再尝试匹配 "z"

如果第 2个 "\w+?" 无论怎样 "增加匹配次数"

直至整篇文本结束

"z" 都不能匹配

那么表示 "d(\w+?)z" 匹配失败

也就是说第

个 "\w+?"

"右侧" 匹配失败

此时

第

个 "\w+?" 会增加匹配

次

然后再进行 "d(\w+?)z"

匹配

循环前面所讲

过程

直至第

个 "\w+?" 无论如何 "增加匹配次数"

后边

"d(\w+?)z" 都不能匹配时

整个表达式才宣告匹配失败

其实

为了使整个表达式匹配成功

贪婪匹配也会适当

“让出”已经匹配

因此贪婪匹配也有类似

情况

当

个表达式中有较多

未知匹配次数

表达式时

为了让整个表达式匹配成功

各个贪婪或非贪婪

表达式都要进行尝试减少或增加匹配次数

由此容易形成

个大循环

尝试

造成了很长

匹配时间

本文的所以称的为“陷阱”

这种效率问题往往不易察觉

举例:"d(\w+?)d(\w+?)d(\w+?)z" 匹配 "ddddddddddd..." 时

将花费较长

段时间才能判断出匹配失败

效率陷阱避免:

避免效率陷阱

原则是:避免“多重循环”

“尝试匹配”

并不是说非贪婪匹配就是不好

只是在运用非贪婪匹配

时候

需要注意避免过多“循环尝试”

问题

情况

:对于只有

个非贪婪或者贪婪匹配

表达式来说

不存在效率陷阱

也就是说

要匹配类似 "<td> 内容 </td>" 这样

文本

表达式 "<td>([^<]|<(?!/td>))*</td>" 和 "<td>((?!</td>).)*</td>" 和 "<td>.*?</td>"

效率是完全相同

情况 2:如果

个表达式中有多个未知匹配次数

表达式

应防止进行不必要

尝试匹配

比如

对表达式 "<script language='(.*?)'>(.*?)</script>" 来说

如果前面部分表达式在遇到 "<script language='vbscript'>" 时匹配成功后

而后边

"(.*?)</script>" 却匹配失败

将导致第

个 ".*?" 增加匹配次数再尝试

而对于表达式真正目

让第

个 ".*?" 增加匹配成“vbscript'>”是不对

因此这种尝试是不必要

尝试

因此

对依靠边界来识别

表达式

不要让未知匹配次数

部分跨过它

边界

前面

表达式中

第

个 ".*?" 应该改写成 "[^']*"

后边那个 ".*?"

右边再没有未知匹配次数

表达式

因此这个非贪婪匹配没有效率陷阱

于是

这个匹配脚本块

表达式

应该写成:"<script language='([^']*)'>(.*?)</script>" 更好

Tags: 正则表达式数字 js正则表达式 java正则表达式正则表达式

正则表达式:正则表达式话题

引言

1. 表达式递归匹配

2. 非贪婪匹配效率

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注