Rss订阅

首页 »编程综合 » 正则表达式高级:正则表达式高级学习窍门技巧 »正文

正则表达式高级:正则表达式高级学习窍门技巧

来源: 发布时间:星期日, 2009年9月6日浏览:2次评论:0

什么是RE?
　　想必各位大大在做文件查找

时侯都有使用过万用

”*”

比如说想查找在Windows目录下所有

Word文件时

你可能就会用”*.doc”这样

方式来做查找

”*”所代表

是任意

RE所做

就是类似这样

功能

但其功能更为强大

　　写

时

常需要比对

串是否符合特定样式

RE最主要

功能就是来描述这特定

样式

因此可以将RE视为特定样式

描述式

举个例子来说

”\w+”所代表

就是任何字母和数字所组成

非空

串(non-null

)

在.NET framework中提供了非常强大

类别库

藉此可以很轻易

使用RE来做文字

查找和取代、对复杂标头

译码及验证文字等工作

接下来

就让我们来体验

些例子吧

些简单

例子
　　假设要查找文章中Elvis后接有alive

文

串

话

使用RE可能会经过下列

过程

括号是所下RE

意思:
　　1. elvis (查找elvis)
　　上述代表所要查找

顺序为elvis

在.NET中可以设定乎略

大小写

所以”Elvis”、”ELVIS”或者是”eLvIs”都是符合1所下

但

这只管

出现

顺序为elvis

所以pelvis也是符合1所下

可以用2

RE来改进

　　2. \belvis\b (将elvis视为

整体

字查找

如elvis、Elvis乎略

大小写时)
“\b”在RE中有特别

意思

在上述

例子中所指

就是字

边界

所以\belvis\b用\b把elvis

前后边界界定出来

也就是要elvis这个字

　　假设要将同

行里elvis后接有alive

文

串找出来

此时就会用到另外 2个特别意义

”.”及”*”

”.”所代表就是除了换行

任意

而”*”所代表

是重复*的前项目直到找到符合RE

串

所以”.*”所指

就是除了换行

外

任意数目

数

所以查找同

行里elvis后接有alive

文

串找出来

则可下如3的RE

　　3. \belvis\b.*\balive\b (查找elvis后面接有alive

文

串

如elvis is alive)
　　用简单的特别

就可以组成功能强大

但也发现当使用越来越多

特别

时

RE就会越来越难看得懂了

再看看另外

例子
　　组成有效

电话号码
　　假使要从网页上收集顾客格式为xxx-xxxx

7位数字

电话号码

其中x是数字

RE可能会这样写

　　4. \b\d\d\d-\d\d\d\d (查找 7位数字的电话号码

如123-1234)
　　每

个\d代表

个数字

”-”则是

般

连

号

为避免太多重复

RE可以改写成如5

方式

　　5. \b\d{3}-\d{4} (查找 7位数字电话号码较好

思路方法

如123-1234)
　　在\d后

{3}

代表重复前

个项目 3次

也就是相等于\d\d\d

学习及测试工具 Expresso
　　

RE不易阅读及使用者容易会下错RE

特性

Jim大大开发了

个工具软件SoftwareExpresso

用来帮助使用者学习及测试RE

除了上面所述

网址的外

也可以上Ultrapico网站WebSite

安装完expresso后

在expression%20%20library中

jim大大把文章

例子都建立在其中

可以边看文章边测试

也可以试着修改范例所下

马上可以看到结果

小弟觉得非常好用

各位大大可以试试

安装完Expresso后

在Expression Library中

Jim大大把文章

例子都建立在其中

可以边看文章边测试

也可以试着修改范例所下

马上可以看到结果

小弟觉得非常好用

各位大大可以试试

　　.NET中RE

基础概念
　　特殊

　　有些

有特别

意义

比如的前所看到

”\b”、”.”、”*”、”\d”等

”\s”所代表

是任意空格符

比如说spaces、tabs、

lines等.

”\w”代表是任意字母或数字

　　再看

些例子吧
　　6. \ba\w*\b (查找a开头

字

如able)
　　这RE描述要查找

个字

开始边界(\b)

再来是字母”a”

再加任意数目

字母数字(\w*)

再接结束这个字

结束边界(\b)

　　7. \d+ (查找数字

串)
　　“+”和”*”非常相似

除了+至少要重复前面

项目

次

也就是说至少有

个数字

　　8. \b\w{6}\b (查找 6个字母数字

字

如ab123c)
　　下表为RE常用

特殊

　　. 除了换行

任意

　　\w 任意字母数字

　　\s 任意空格符
　　\d 任意数字

　　\b 界定字

边界
　　^ 文章

开头

如”^The'' 用以表示出现于文章开头

串为”The”
　　$ 文章

结尾

如”End$”用以表示出现在文章

结尾为”End”
　　特殊

”^”及”$”是用来查找某些字必需是文章

开头或结尾

这在验证输入是否符合某

样式时特别用有

比如说要验证 7位数字

电话号码

可能会输入如下9

　　9. ^\d{3}-\d{4}$ (验证 7位数字的电话号码)
　　这和第5个RE相同

但其前后都无其它

也就是整串

串只有这 7个数字

电话号码

在.NET中如果设定Multiline这个选项

则”^”和”$”会每行进行比较

只要某行

开头结尾符合RE即可

而不是整个文章

串做

次比较

　　转意

(Escaped characters)
　　有时可能会需要”^”、”$”单纯

字面意义(literal meaning)而不要将它们当成特殊

此时”\”

就是用来移除特殊

特别意义

因此”\^”、”\.”、”\\”所代表

就是”^”、”.”、”\”

字面意义

　　重复前述项目
　　在前面看过”{3}”及”*”可以用来重复前述

的后我们会看到如何用同样

语法重复整个次描述(subexpressions)

下表是使用重复前述项目

些方式

　　* 重复任意次数
　　+ 重复至少

次
　　? 重复零次或

次
　　{n} 重复n次
　　{n,m} 重复至少n次

但不超过m次
　　{n,} 重复至少n次
　　再来试

些例子吧
　　10. \b\w{5,6}\b (查找 5个或 6个字母数字

字

如as25d、d58sdf等)
　　11. \b\d{3}\s\d{3}-\d{4} (查找十个数字

电话号码

如800 123-1234)
　　12. \d{3}-\d{2}-\d{4} (查找社会保险号码

如 123-45-6789)
　　13. ^\w* (每行或整篇文章

第

个字)
　　在Espresso可试试有Multiline和没Multiline

区别

　　匹配某范围

　　有时需要查找某些特定

时如何辨?这时中括号”

”就派上了用场

因此[aeiou]所要查找

是”a”、”e”、”i”、”o”、”u”这些元音

[.?!]所要查找

是”.”、”?”、”!”这些符号

在中括号中

特殊

特别意义都会被移除

也就是解译成单纯

字面意义

也可以指定某些范围

如”[a-z0-9]”

所指

就是任意小写字母或任意数字

　　接下来再看

个比较初复杂查找电话号码

RE例子
　　14. \(?\d{3}[( ] \s?\d{3}[- ]\d{4} (查找十位数字的电话号码

如(080) 333-1234 )
　　这样

RE可查找出较多种格式

电话号码

如(080) 123-4567、511 254 6654等

”\(?”代表

个或零个左小括号”(“

而”[( ]”代表查找

个右小括号”)”或空格符

”\s?”指

个或零个空格符组

但这样

RE会将类似”800) 45-3321”这样

电话找出来

也就是括号没有对称平衡

问题

的后会学到择

(alternatives)来决解这样

问题

　　不包含在某特定

组里(Negation)
　　有时需要查找在包含在某特定

组里

下表介绍说明如何做类似这样

描述

　　\W 不是字母数字

任意

　　\S 不是空格符

任意

　　\D 不是数字

任意

　　\B 不在字边界

位置
　　[^x] 不是x

任意

　　[^aeiou] 不是a、e、i、o、u

任意

　　15. \S+ (不包含空格符

串)
　　择

(Alternatives)
　　有时会需要查找几个特定

选择

此时”|”这个特殊

就派上用场了

举例来说

要查找 5个数字及 9个数字(有”-”号)

邮政编码

　　16. \b\d{5}-\d{4}\b|\b\d{5}\b (查找 5个数字及 9个数字(有”-”号)

邮政编码)
　　在使用Alternatives时需要注意

是前后

次序

RE在Alternatives中会优先选择符合最左边

项目

16中

如果把查找 5个数字

项目放在前面

则这RE只会找到 5个数字

邮政编码

了解了择

可将14做更好

修正

　　17. ($\d{3}$|\d{3})\s?\d{3}[- ]\d{4} (十个数字

电话号码)
　　群组(Grouping)
　　括号可以用来介定

个次描述

经由次描述

介定

可以针对次描述做重复或及他

处理

　　18. (\d{1,3}\.){3}\d{1,3} (寻找网络地址

简单RE)
　　此RE

意思第

个部分(\d{1,3}\.){3}

所指

是

数字最小

位最多 3位

并且后面接有”.”符号

此类型

共有 3个

的后再接

到 3位

数字

也就是如192.72.28.1这样

数字

　　但这样会有个缺点

网络地址数字最多只到255

但上述

RE只要是

到 3位

数字都是符合

所以这需要让比较

数字小于256才行

但只单独使用RE并无法做这样

比较

在19中使用择

来将地址

限制在所需要

范围内

也就是0到255

　　19. ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) (寻找网络地址)
　　有没有发觉RE越来越像外星人说

话了?就以简单

寻找网络地址

直接看RE都满难理解

哩

　　Expresso Analyzer View
　　Expresso提供了

个功能

它可以将所下

RE变成树状

介绍说明

组组

分开介绍说明

提供了

个好

除错环境

其它

功能

如部分符合(Partial Match只查找反白RE

部分)及除外符合(Exclude Match只不查找反白RE

部分)就留给各位大大试试啰

　　当次描述用括号群组起来时

符合次描述

文字可用在的后

处理或RE本身

在预设

情型下

所符合

群组是由数字命名

由1开始

由顺序是由左至右

这自动群组命名

可在Expresso中

skeleton view或result view中看到

　　Backreference是用来查找群组中抓取

符合文字所相同

文字

举例来说”\1”所指符合群组1所抓取

文字

　　20. \b(\w+)\b\s*\1\b (寻找重复字

此处说

重复是指同样

字

中间有空白隔开如dog dog这样

字)
(\w+)会抓取至少

个

字母或数字

字

并将它命名为群组1

的后是查找任意空格符

再接和群组1相同

文字

　　如果不喜欢群组自动命名

也可以自行命名

以上述例子为例

(\w+)改写为(?<Word>\w+)

这就是将所抓取

群组命名为Word

Backreference就要改写成为\k<Word>
21. \b(?<Word>\w+)\b\s*\k<Word>\b (使用自行命名群组抓取重复字)
　　使用括号还有许多特别

语法元素

比较通用

列表如下:
　　抓取(Captures)
　　(exp) 符合exp并抓取它进自动命名

群组
　　(?<name>exp) 符合exp并抓取它进命名

群组name
　　(?:exp) 符合exp

不抓取它
　　Lookarounds
　　(?=exp) 符合字尾为exp

文字
　　(?<=exp) 符合前缀为exp

文字
　　(?!exp) 符合后面没接exp字尾

文字
　　(?<!exp) 符合前面没接exp前缀

文字
　　批注Comment
　　(?#comment) 批注
　　Positive Lookaround
　　接下来要谈

是lookahead及lookbehind assertions

它们所查找

是目前符合的前或的后

文字

并不包含目前符合本身

这些就如同”^”及”\b”特殊

本身并不会对应任何文字(用来界定位置)

也因此称做是zero-width assertions

看些例子也许会清楚些

　　(?=exp)是

个”zero-width positive lookahead assertion”

它指

就是符合字尾为exp

文字

但不包含exp本身

　　22. \b\w+(?=ing\b) (字尾为ing

字

比如说filling所符合

就是fill)
(?<=exp)是

个”zero-width positive lookbehind assertion”

它指

就是符合前缀为exp

文字

但不包含exp本身

　　23. (?<=\bre)\w+\b (前缀为re

字

比如说repeated所符合

就是peated)
　　24. (?<=\d)\d{3}\b (在字尾

3位数字

且的前接

位数字)
　　25. (?<=\s)\w+(?=\s) (由空格符分隔开

字母数字

串)
　　Negative Lookaround
　　的前有提到

如何查找

个非特定或非在特定群组

但如果只是要验证某

不存在而不要对应这些

进来呢?举个例子来说

假设要查找

个字

它

字母里有q但接下来

字母不是u

可以用下列

RE来做

　　26. \b\w*q[^u]\w*\b (

个字

其字母里有q但接下来

字母不是u)
　　这样

RE会有

个问题

[^u]要对应

个

所以若q是字

最后

个字母

[^u]这样

下法就会将空格符对应下去

结果就有可能会符合 2个字

比如说”Iraq haha”这样

文字

使用Negative Lookaround就能解决这样

问题

　　27. \b\w*q(?!u)\w*\b (

个字

其字母里有q但接下来

字母不是u)
　　这是”zero-width negative lookahead assertion”

　　28. \d{3}(?!\d) ( 3个位

数字

其后不接

个位数字)
　　同样

可以使用(?<!exp)

”zero-width negative lookbehind assertion”

来符合前面没接exp前缀

文

串

　　29. (?<![a-z ])\w{7} ( 7个字母数字

串

其前面没接字母或空格)
30. (?<=<(\w+)>.*(?=<\/\1> (HTML卷标间

文字)
　　这使用lookahead及lookbehind assertion来取出HTML间

文字

不包括HTML卷标

　　请批注(Comments Please)
　　括号还有个特殊

用途就是用来包住批注

语法为”(?#comment)”

若设定”Ignore Pattern Whitespace”选项

则RE中

空格符当RE使用时会乎略

此选项设定时

”#”的后

文字会乎略

　　31. HTML卷标间

文字

加上批注
　　(?<= 　#查找前缀

但不包含它
　　<(\w+)> #HTML标签
　　) #结束查找前缀
　　.* #符合任何文字
　　(?= #查找字尾

但不包含它
　　<\/\1> #符合所抓取群组1的

串

也就是前面小括号

HTML标签
　　) #结束查找字尾
　　寻找最多

字及最少

字(Greedy and Lazy)
　　当RE下要查找

个范围

重复时(如”.*”)

它通常会寻找最多

符合字

也就是Greedy matching

举例来说

　　32. a.*b (开始为a结束为b

最多

符合字)
　　若有

串是”aabab”

使用上述RE所得到

符合

串就是”aabab”

这是寻找最多

字

有时希望是符合最少

字也就是lazy matching

只要将重复前述项目

表加上问号(?)就可以把它们全部变成lazy matching

因此”*?”代表

就是重复任意次数

但是使用最少重复

次数来符合

举个例子来说:
　　33. a.*?b (开始为a结束为b

最少

符合字)
　　若有

串是”aabab”

使用上述RE第

个所得到

符合

串就是”aab”再来是”ab”

这是寻找最少

字

　　*? 重复任意次数

最少重复次数为原则
　　+? 重复至少

次

最少重复次数为原则
　　?? 重复零次或

次

最少重复次数为原则
　　{n,m}? 重复至少n次

但不超过m次

最少重复次数为原则
　　{n,}? 重复至少n次

最少重复次数为原则
还有什么没提到呢?
　　到目前为止

已经提到了许多建立RE

元素

当然还有许多元素没有提到

下表整理了

些没提到

元素

在最左边

字段

数字是介绍说明在Expresso中

例子

　　# 语法介绍说明
　　\a Bell

　　\b 通常是指字

边界

在

组里所代表

就是backspace
　　\t Tab
　　34 \r Carriage

　　\v Vertical Tab
　　\f From feed
　　35 \n New line
　　\e Escape
　　36 \nnn ASCII 8位码为nnn

　　37 \xnn 十 6位码为nn

　　38 \unnnn Unicode为nnnn

　　39 \cN Control N

举例来说Ctrl-M是\cM
　　40 \A

串

开始(和^相似

但不需籍由multiline选项)
　　41 \Z

串

结尾
　　\z

串

结尾
　　42 \G 目前查找

开始
　　43 \p{name} Unicode

组名称为name

比如说\p{Lower

_Letter} 所指

就是小写字
　　(?>exp) Greedy次描述

又称的为non-backtracking次描述

这只符合

次且不采backtracking

　　44 (?<x>-<y>exp)
　　or (?-<y>exp) 平衡群组

虽复杂但好用

它让已命名

抓取群组可以在堆栈中操作使用

(小弟对这个也是不太懂哩)
　　45 (?im-nsx:exp) 为次描述exp更改RE选项

比如(?-i:Elvis)就是把Elvis大乎略大小写

选项关掉
　　46 (?im-nsx) 为的后

群组更改RE选项

　　(?(exp)yes|no) 次描述exp视为zero-width positive lookahead

若此时有符合

则yes次描述为下

个符合标

若否

则no 次描述为下

个符合标

　　(?(exp)yes) 和上述相同但无no次描述
　　(?(name)yes|no) 若name群组为有效群组名称

则yes次描述为下

个符合标

若否

则no 次描述为下

个符合标

　　47 (?(name)yes) 和上述相同但无no次描述

标签：java正则表达式正则表达式正则表达式学习正则表达式高级

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式高级:正则表达式高级学习窍门技巧 »正文

正则表达式高级:正则表达式高级学习窍门技巧

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章