Rss订阅

首页 »编程综合 » 正则表达式入门:正则表达式学习参考推荐入门者看 »正文

正则表达式入门:正则表达式学习参考推荐入门者看

来源: 发布时间:星期一, 2009年9月7日浏览:21次评论:0

1 概述

正则表达式(Regular Expression)是

种匹配模式

描述

是

串文本

特征

正如自然语言中“高大”、“坚固”等词语抽象出来描述事物特征

样

正则表达式就是

高度抽象

用来描述

串

特征

正则表达式(以下简称正则

Regex)通常不独立存在

各种编程语言和工具作为宿主语言提供对正则

支持

并根据自身语言

特点

进行

定

剪裁或扩展

正则入门很容易

有限

语法规则很容易掌握

但是目前正则

普及率并不高

主要是

正则

流派众多

各种宿主语言提供

文档都过多

关注于自身

些细节

而这些细节通常是初学者并不需要关注

当然

如果想要深入

了解正则表达式

这些细节又是必须被关注

这是后话

让我们先从正则

基础开始

进入正则表达式

世界

2 正则表达式基础

2.1 基本概念

2.1.1 串组成

对于

串“a5”

是由两个

“a”、“5”以及 3个位置组成

这

点对于正则表达式

匹配原理理解很重要

2.1.2 占有和零宽度

正则表达式匹配过程中

如果子表达式匹配到

是

内容

而非位置

并被保存到最终

匹配结果中

那么就认为这个子表达式是占有

；如果子表达式匹配

仅仅是位置

或者匹配

内容并不保存到最终

匹配结果中

那么就认为这个子表达式是零宽度

占有

还是零宽度

是针对匹配

内容是否保存到最终

匹配结果中而言

占有

是互斥

零宽度是非互斥

也就是

个

同

时间只能由

个子表达式匹配

而

个位置

却可以同时由多个零宽度

子表达式匹配

2.1.3 正则表达式构成

正则表达式由两种

构成

种是在正则表达式中具体特殊意义

“元

”

另

种是普通

“文本

”

元

可以是

个

如“^”

也可以是

个

序列

如“\w”

2.2 元(Meta Character)

2.2.1 […] 组(Character Classes)

组可以匹配[ ]中包含

任意

个

虽然可以是任意

个

但只能是

个

组支持由连

“-”来表示

个范围

当“-”前后构成范围时

要求前面

码位小于后面

码位

[^…] 排除型

组

排除型

组表示任意

个未列出

同样只能是

个

排除型

组同样支持由连

“-”来表示

个范围

表达式

介绍说明

[abc]

表示“a”或“b”或“c”

[0-9]

表示0~9中任意

个数字

等价于[0123456789]

[\u4e00-\u9fa5]

表示任意

个汉字

[^a1<]

表示除“a”、“1”、“<”外

其它任意

个

[^a-z]

表示除小写字母外

任意

个

举例:

“[0-9][0-9]”在匹配“Windows 2003”时

匹配成功

匹配

结果为“20”

“[^inW]”在匹配“Windows 2003”时

匹配成功

匹配

结果为“d”

2.2.2 常见范围缩写

对于

些常用

范围

如数字等

由于非常常用

即使使用[0-9]这样

组仍显得麻烦

所以定义了

些元

来表示常见

范围

表达式

介绍说明

\d

任意

个数字

相当于[0-9]

即0~9 中

任意

个

\w

任意

个字母或数字或下划线

相当于[a-zA-Z0-9_]

\s

任意空白

相当于[ \r\n\f\t\v]

\D

任意

个非数字

\d取反

相当于[^0-9]

\W

\w取反

相当于[^a-zA-Z0-9_]

\S

任意非空白

\s取反

相当于[^ \r\n\f\t\v]

举例:

“\w\s\d”在匹配“Windows 2003”时

匹配成功

匹配

结果为“s 2”

2.2.3 . 小数点

小数点可以匹配除“\n”以外

任意

个

如果要匹配包括“\n”在内

所有

般用[\s\S]

或者是用“.”加(?s)匹配模式来实现

表达式

介绍说明

.

匹配除了换行符 \n 以外

任意

个

2.2.4 其它元

表达式

介绍说明

^

匹配

串开始

位置

不匹配任何

$

匹配

串结束

位置

不匹配任何

\b

匹配单词边界

不匹配任何

举例:

“^a”在匹配“cba”时

匹配失败

表达式要求开始位置后面是

“a”

而“cba”显然是不满足

“\d$”在匹配“123”时

匹配成功

匹配结果为“3”

这个表达式要求匹配结尾处

数字

如果结尾处不是数字

如“123abc”

则是匹配失败

2.2.5 转义

些不可见

或是在正则中具有特殊意义

元

如想匹配

本身

需要用“\”对其进行转义

表达式

介绍说明

\r\n

回车和换行

\\

匹配“\”本身

\^\$\.

分别匹配“^”、“$”和“.”

以下

在匹配其本身时

通常需要进行转义

在实际应用中

根据具体情况

需要转义

可能不止如下所列

　. $ ^ { [ ( | ) * + ? \

2.2.6 量词(Quantier)

量词表示

个子表达式可以匹配

次数

量词可以用来修饰

个

、

组

或是用

括起来

子表达式

些常用

量词被定义成独立

元

表达式

介绍说明

举例

{m}

表达式匹配m次

“\d{3}”相当于“\d\d\d ”

“(abc){2}”相当于“abcabc”

{m,n}

表达式匹配最少m次

最多n次

“\d{2,3}”可以匹配“12”或“321”等2到3位

数字

{m,}

表达式至少匹配m次

“[a-z]{8,}”表示至少8位以上

字母

?

表达式匹配0次或1次

相当于{0,1}

“ab?”可以匹配“a”或“ab”

*

表达式匹配0次或任意多次

相当于{0,}

“<[^>]*>”中“[^>]*”表示0个或任意多个不是“>”

+

表达式匹配1次或意多次

至少1次

相当于{1,}

“\d\s+\d”表示两个数字中间

至少有

个以上

空白

注意:在不是动态生成

正则表达式中

不要出现“{1}”这样

量词

如“\w{1}”在结果上等价于“\w”

但是会降低匹配效率和可读性

属于画蛇添足

做法

2.2.7 分支结构(Alternation)

当

个

串

某

子串具有多种可能时

采用分支结构来匹配

“|”表示多个子表达式的间“或”

关系

“|”是以

限定范围

如果在“|”

左右两侧没有

来限定范围

那么它

作用范围即为“|”左右两侧整体

表达式

介绍说明

|

多个子表达式的间取“或”

关系

举例:

“^aa|b$”在匹配“cccb”时

是可以匹配成功

匹配

结果是“b”

这个表达式表示匹配“^aa”或“b$”

而“b$”在匹配“cccb ”时是可以匹配成功

“^(aa|b)$”在区配“cccb”时

是匹配失败

这个表达式表示在“开始”和“结束”位置的间只能是“aa”或“b”

而“cccb”显然是不满足

3 正则表达式进阶

3.1 捕获组(Capture Group)

捕获组就是把正则表达式中子表达式匹配

内容

保存到内存中以数字编号或手动命名

组里

以供后面引用

表达式

介绍说明

(Expression)

普通捕获组

将子表达式Expression匹配

内容保存到以数字编号

组里

(?<name> Expression)

命名捕获组

将子表达式Expression匹配

内容保存到以name命名

组里

普通捕获组(在不产生歧义

情况下

简称捕获组)是以数字进行编号

编号规则是以“(”从左到右出现

顺序

从1开始进行编号

通常情况下

编号为0

组表示整个表达式匹配

内容

命名捕获组可以通过捕获组名

而不是序号对捕获内容进行引用

提供了更便捷

引用方式

不用关注捕获组

序号

也不用担心表达式部分变更会导致引用

捕获组

3.2 非捕获组

些表达式中

不得不使用( )

但又不需要保存( )中子表达式匹配

内容

这时可以用非捕获组来抵消使用( )带来

副作用

表达式

介绍说明

(?:Expression)

进行子表达式Expression

匹配

并将匹配内容保存到最终

整个表达式

区配结果中

但Expression匹配

内容不单独保存到

个组内

3.3 反向引用

捕获组匹配

内容

可以在正则表达式

外部

中进行引用

也可以在表达式中进行引用

表达式中引用

方式就是反向引用

反向引用通常用来查找重复

子串

或是限定某

子串成对出现

表达式

介绍说明

\1\2

对序号为1和2

捕获组

反向引用

\k<name>

对命名为name

捕获组

反向引用

举例:

“(a|b)\1”在匹配“abaa”时

匹配成功

匹配到

结果是“aa”

“(a|b)”在尝试匹配时

虽然既可以匹配“a”

也可以匹配“b”

但是在进行反向引用时

对应

中匹配

内容已经是固定

了

3.4 环视(Look Around)

环视只进行子表达式

匹配

匹配内容不计入最终

匹配结果

是零宽度

环视按照方向划分有顺序和逆序两种

按照是否匹配有肯定和否定两种

组合起来就有 4种环视

环视相当于对所在位置加了

个附加条件

表达式

介绍说明

(?<=Expression)

逆序肯定环视

表示所在位置左侧能够匹配Expression

(?<!Expression)

逆序否定环视

表示所在位置左侧不能匹配Expression

(?=Expression)

顺序肯定环视

表示所在位置右侧能够匹配Expression

(?!Expression)

顺序否定环视

表示所在位置右侧不能匹配Expression

举例:

“(?<=Windows )\d+”在匹配“Windows 2003”时

匹配成功

匹配结果为“2003”

我们知道“\d+”表示匹配

个以上

数字

而“(?<=Windows )”相当于

个附加条件

表示所在位置左侧必须为“Windows ”

它所匹配

内容并不计入匹配结果

同样

正则在匹配“Office 2003”时

匹配失败

这里任意

串数字子串

左侧都不是“Windows ”

“(?!1)\d+”在匹配“123”时

匹配成功

匹配

结果为“23”

“\d+”匹配

个以上数字

但是附加条件“(?!1)”要求所在位置右侧不能是“1”

所以匹配成功

位置是“2”前面

位置

3.5 忽略优先和匹配优先

或者叫做正则表达式匹配

贪婪和非贪婪模式

标准量词修饰

子表达式

在可匹配可不匹配

情况下

总会先尝试进行匹配

称这种方式为匹配优先

或者贪婪模式

此前介绍

些量词

“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先

些NFA正则引擎支持忽略优先量词

也就是在标准量词后加

个“?”

此时

在可匹配可不匹配

情况下

总会先忽略匹配

只有在由忽略优先量词修饰

子表达式

必须进行匹配才能使整个表达式匹配成功时

才会进行匹配

称这种方式为忽略优先

或者非贪婪模式

忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”

举例:

源

串:<div>aaa</div><div>bbb</div>

正则表达式1:<div>.*</div> 匹配结果:<div>aaa</div><div>bbb</div>

正则表达式2:<div>.*?</div> 匹配结果:<div>aaa</div>

标签：js正则表达式 java正则表达式正则表达式正则表达式入门

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式入门:正则表达式学习参考推荐入门者看 »正文

正则表达式入门:正则表达式学习参考推荐入门者看

1 概述

2 正则表达式基础

2.1 基本概念

2.1.1 串组成

2.1.2 占有和零宽度

2.1.3 正则表达式构成

2.2 元(Meta Character)

2.2.1 […] 组(Character Classes)

2.2.2 常见范围缩写

2.2.3 . 小数点

2.2.4 其它元

2.2.5 转义

2.2.6 量词(Quantier)

2.2.7 分支结构(Alternation)

3 正则表达式进阶

3.1 捕获组(Capture Group)

3.2 非捕获组

3.3 反向引用

3.4 环视(Look Around)

3.5 忽略优先和匹配优先

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式入门:正则表达式 学习参考 推荐入门者看 »正文

正则表达式入门:正则表达式 学习参考 推荐入门者看

1 概述

2 正则表达式基础

2.1 基本概念

2.1.1 串组成

2.1.2 占有和零宽度

2.1.3 正则表达式构成

2.2 元(Meta Character)

2.2.1 […] 组(Character Classes)

2.2.2 常见范围缩写

2.2.3 . 小数点

2.2.4 其它元

2.2.5 转义

2.2.6 量词(Quantier)

2.2.7 分支结构(Alternation)

3 正则表达式进阶

3.1 捕获组(Capture Group)

3.2 非捕获组

3.3 反向引用

3.4 环视(Look Around)

3.5 忽略优先和匹配优先

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章

首页 »编程综合 » 正则表达式入门:正则表达式学习参考推荐入门者看 »正文

正则表达式入门:正则表达式学习参考推荐入门者看