Rss订阅

首页 »编程综合 » 正则表达式学习:正则表达式学习笔记 »正文

正则表达式学习:正则表达式学习笔记

来源: 发布时间:星期日, 2009年9月6日浏览:2次评论:0

正则表达式学习笔记
　　正则表达式(regular expression)描述了

种

串匹配

模式

可以用来检查

个串是否含
有某种子串、将匹配

子串做替换或者从某个串中取出符合某个条件

子串等

　　列目录时

　dir *.txt或ls *.txt中

*.txt就不是

个正则表达式,

这里*和正则式

含义是区别

　　为便于理解和记忆

先从

些概念入手

所有特殊

或

组合有

个总表在后面

最后

些例子供理解相应

概念

正则表达式
　　是由普通

(例如

a 到 z)以及特殊

(称为元

)组成

文字模式

正则表达
式作为

个模板

将某个

模式和所搜索

串进行匹配

　　可以通过在

对分隔符的间放入表达式模式

各种组件来构造

个正则表达式

即/expression/
普通

　　由所有那些未显式指定为元

打印和非打印

组成

这包括所有

大写和小写字母

所有数字

所有标点符号以及

些符号

非打印

含义
\cx 匹配由x指明

控制

例如

\cM 匹配

个 Control-M 或回车符

值必须为 A-Z
或 a-z 的

否则

将 c 视为

个原义

'c'

\f 匹配

个换页符

等价于 \x0c 和 \cL

\n 匹配

个换行符

等价于 \x0a 和 \cJ

\r 匹配

个回车符

等价于 \x0d 和 \cM

\s 匹配任何空白

包括空格、制表符、换页符等等

等价于 [ \f\n\r\t\v]

\S 匹配任何非空白

等价于 [^ \f\n\r\t\v]

\t 匹配

个制表符

等价于 \x09 和 \cI

\v 匹配

个垂直制表符

等价于 \x0b 和 \cK

特殊
　　所谓特殊

就是

些有特殊含义

如上面说

"*.txt"中

简单

说就是表示任
何

串

意思

如果要查找文件名中有＊

文件

则需要对＊进行转义

即在其前加

个\

ls
\*.txt

正则表达式有以下特殊

特别介绍说明
$ 匹配输入

串

结尾位置

如果设置了 RegExp 对象

Multiline 属性

则 $ 也匹配 '\n'
或 '\r'

要匹配 $

本身

请使用 \$

( ) 标记

个子表达式

开始和结束位置

子表达式可以获取供以后使用

要匹配这些

请使
用 $ 和 $

* 匹配前面

子表达式零次或多次

要匹配 *

请使用 \*

+ 匹配前面

子表达式

次或多次

要匹配 +

请使用 \+

. 匹配除换行符 \n的外

任何单

要匹配 .

请使用 \

[ 标记

个中括号表达式

开始

要匹配 [

请使用 \[

? 匹配前面

子表达式零次或

次

或指明

个非贪婪限定符

要匹配 ?

请使用 \?

\ 将下

个

标记为或特殊

、或原义

、或向后引用、或 8进制转义符

例如

'n' 匹
配

'n'

'\n' 匹配换行符

序列 '\\' 匹配 "\"

而 '\(' 则匹配 "("

^ 匹配输入

串

开始位置

除非在方括号表达式中使用

此时它表示不接受该

集合

要匹
配 ^

本身

请使用 \^

{ 标记限定符表达式

开始

要匹配 {

请使用 \{

| 指明两项的间

个选择

要匹配 |

请使用 \|

　　构造正则表达式

思路方法和创建数学表达式

思路方法

样

也就是用多种元

和操作符将小

表
达式结合在

起来创建更大

表达式

正则表达式

组件可以是单个

、

集合、

范围
、

间

选择或者所有这些组件

任意组合

限定符
　　限定符用来指定正则表达式

个给定组件必须要出现多少次才能满足匹配

有*或+或?或{n}
或{n,}或{n,m}共6种

*、+和?限定符都是贪婪

它们会尽可能多

匹配文字

只有在它们

后面加上

个?就可以
实现非贪婪或最小匹配

　　正则表达式

限定符有:

描述
* 匹配前面

子表达式零次或多次

例如

zo* 能匹配 "z" 以及 "zoo"

* 等价于{0,}

+ 匹配前面

子表达式

次或多次

例如

'zo+' 能匹配 "zo" 以及 "zoo"

但不能匹配 "z"

+
等价于 {1,}

? 匹配前面

子表达式零次或

次

例如

"do(es)?" 可以匹配 "do" 或 "does" 中

"do"

?
等价于 {0,1}

{n} n 是

个非负整数

匹配确定

n 次

例如

'o{2}' 不能匹配 "Bob" 中

'o'

但是能匹
配 "food" 中

两个 o

{n,} n 是

个非负整数

至少匹配n 次

例如

'o{2,}' 不能匹配 "Bob" 中

'o'

但能匹配
"foooood" 中

所有 o

'o{1,}' 等价于 'o+'

'o{0,}' 则等价于 'o*'

{n,m} m 和 n 均为非负整数

其中n <= m

最少匹配 n 次且最多匹配 m 次

例如

"o{1,3}"
将匹配 "fooooood" 中

前 3个 o

'o{0,1}' 等价于 'o?'

请注意在逗号和两个数的间不能有空
格

定位符
　　用来描述

串或单词

边界

^和$分别指

串

开始和结束

\b描述单词

前或后边界

\B表示非单词边界

不能对定位符使用限定符

选择
　　用圆括号将所有选择项括起来

相邻

选择项的间用|分隔

但用圆括号会有

个副作用

是
相关

匹配会被缓存Cache

此时可用?:放在第

个选项前来消除这种副作用

　　其中?:是非捕获元的

还有两个非捕获元是?=和?!

这两个还有更多

含义

前者为正向预
查

在任何开始匹配圆括号内

正则表达式模式

位置来匹配搜索

串

后者为负向预查

在任
何开始不匹配该正则表达式模式

位置来匹配搜索

串

后向引用
　　对

个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到

个临时缓冲区中

所捕获

每个子匹配都按照在正则表达式模式中从左至右所遇到

内容存储

存储子匹配

缓冲区
编号从 1 开始

连续编号直至最大 99 个子表达式

每个缓冲区都可以使用 '\n' 访问

其中 n
为

个标识特定缓冲区

位或两位十进制数

　　可以使用非捕获元

'?:', '?=', or '?!' 来忽略对相关匹配

保存

各种操作符

运算优先级
　　相同优先级

从左到右进行运算

区别优先级

运算先高后低

各种操作符

优先级从高到低
如下:
操作符描述
\ 转义符

, (?:), (?=),

圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, \anymetacharacter 位置和顺序
| “或”操作
全部符号解释

描述
\ 将下

个

标记为

个特殊

、或

个原义

、或

个向后引用、或

个 8进制转义符

例如

'n' 匹配

"n"

'\n' 匹配

个换行符

序列 '\\' 匹配 "\" 而 "\(" 则匹配 "("

^ 匹配输入

串

开始位置

如果设置了 RegExp 对象

Multiline 属性

^ 也匹配 '\n' 或
'\r' 的后

位置

$ 匹配输入

串

结束位置

如果设置了RegExp 对象

Multiline 属性

$ 也匹配 '\n' 或
'\r' 的前

位置

* 匹配前面

子表达式零次或多次

例如

zo* 能匹配 "z" 以及 "zoo"

* 等价于{0,}

+ 匹配前面

子表达式

次或多次

例如

'zo+' 能匹配 "zo" 以及 "zoo"

但不能匹配 "z"

+
等价于 {1,}

? 匹配前面

子表达式零次或

次

例如

"do(es)?" 可以匹配 "do" 或 "does" 中

"do"

?
等价于 {0,1}

{n} n 是

个非负整数

匹配确定

n 次

例如

'o{2}' 不能匹配 "Bob" 中

'o'

但是能匹
配 "food" 中

两个 o

{n,} n 是

个非负整数

至少匹配n 次

例如

'o{2,}' 不能匹配 "Bob" 中

'o'

但能匹配
"foooood" 中

所有 o

'o{1,}' 等价于 'o+'

'o{0,}' 则等价于 'o*'

{n,m} m 和 n 均为非负整数

其中n <= m

最少匹配 n 次且最多匹配 m 次

例如

"o{1,3}"
将匹配 "fooooood" 中

前 3个 o

'o{0,1}' 等价于 'o?'

请注意在逗号和两个数的间不能有空
格

? 当该

紧跟在任何

个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时

匹配模式是非贪
婪

非贪婪模式尽可能少

匹配所搜索

串

而默认

贪婪模式则尽可能多

匹配所搜索

串

例如

对于

串 "oooo"

'o+?' 将匹配单个 "o"

而 'o+' 将匹配所有 'o'

. 匹配除 "\n" 的外

任何单个

要匹配包括 '\n' 在内

任何

请使用象 '[.\n]'

模式

(pattern) 匹配 pattern 并获取这

匹配

所获取

匹配可以从产生

Matches 集合得到

在
VBScript 中使用 SubMatches 集合

在JScript 中则使用 $0…$9 属性

要匹配圆括号

请
使用 '$' 或 '$'

(?:pattern) 匹配 pattern 但不获取匹配结果

也就是说这是

个非获取匹配

不进行存储供以
后使用

这在使用 "或"

(|) 来组合

个模式

各个部分是很有用

例如

'industr
(?:y|ies) 就是

个比 'industry|industries' 更简略

表达式

(?=pattern) 正向预查

在任何匹配 pattern

串开始处匹配查找

串

这是

个非获取
匹配

也就是说

该匹配不需要获取供以后使用

例如

'Windows (?=95|98|NT|2000)' 能匹配
"Windows 2000" 中

"Windows"

但不能匹配 "Windows 3.1" 中

"Windows"

预查不消耗字
符

也就是说

在

个匹配发生后

在最后

次匹配的后立即开始下

次匹配

搜索

而不是从包
含预查

的后开始

(?!pattern) 负向预查

在任何不匹配 pattern

串开始处匹配查找

串

这是

个非获
取匹配

也就是说

该匹配不需要获取供以后使用

例如'Windows (?!95|98|NT|2000)' 能匹配
"Windows 3.1" 中

"Windows"

但不能匹配 "Windows 2000" 中

"Windows"

预查不消耗

也就是说

在

个匹配发生后

在最后

次匹配的后立即开始下

次匹配

搜索

而不是从包含
预查

的后开始
x|y 匹配 x 或 y

例如

'z|food' 能匹配 "z" 或 "food"

'(z|f)ood' 则匹配 "zood" 或
"food"

[xyz]

集合

匹配所包含

任意

个

例如

'[abc]' 可以匹配 "plain" 中

'a'

[^xyz] 负值

集合

匹配未包含

任意

例如

'[^abc]' 可以匹配 "plain" 中

'p'

[a-z]

范围

匹配指定范围内

任意

例如

'[a-z]' 可以匹配 'a' 到 'z' 范围内

任意小写字母

[^a-z] 负值

范围

匹配任何不在指定范围内

任意

例如

'[^a-z]' 可以匹配任何不
在 'a' 到 'z' 范围内

任意

\b 匹配

个单词边界

也就是指单词和空格间

位置

例如

'er\b' 可以匹配"never" 中

'er'

但不能匹配 "verb" 中

'er'

\B 匹配非单词边界

'er\B' 能匹配 "verb" 中

'er'

但不能匹配 "never" 中

'er'

\cx 匹配由 x 指明

控制

例如

\cM 匹配

个 Control-M 或回车符

值必须为 A-Z
或 a-z 的

否则

将 c 视为

个原义

'c'

\d 匹配

个数字

等价于 [0-9]

\D 匹配

个非数字

等价于 [^0-9]

\f 匹配

个换页符

等价于 \x0c 和 \cL

\n 匹配

个换行符

等价于 \x0a 和 \cJ

\r 匹配

个回车符

等价于 \x0d 和 \cM

\s 匹配任何空白

包括空格、制表符、换页符等等

等价于 [ \f\n\r\t\v]

\S 匹配任何非空白

等价于 [^ \f\n\r\t\v]

\t 匹配

个制表符

等价于 \x09 和 \cI

\v 匹配

个垂直制表符

等价于 \x0b 和 \cK

\w 匹配包括下划线

任何单词

等价于'[A-Za-z0-9_]'

\W 匹配任何非单词

等价于 '[^A-Za-z0-9_]'

\xn 匹配 n

其中 n 为十 6进制转义值

十 6进制转义值必须为确定

两个数字长

例
如

'\x41' 匹配 "A"

'\x041' 则等价于 '\x04' & "1"

正则表达式中可以使用 ASCII 编码

.
\num 匹配 num

其中 num 是

个正整数

对所获取

匹配

引用

例如

'(.)\1' 匹配两个连
续

相同

\n 标识

个 8进制转义值或

个向后引用

如果 \n 的前至少 n 个获取

子表达式

则 n 为向
后引用

否则

如果 n 为 8进制数字 (0-7)

则 n 为

个 8进制转义值

\nm 标识

个 8进制转义值或

个向后引用

如果 \nm 的前至少有 nm 个获得子表达式

则 nm
为向后引用

如果 \nm 的前至少有 n 个获取

则 n 为

个后跟文字 m

向后引用

如果前面

条件都不满足

若 n 和 m 均为 8进制数字 (0-7)

则 \nm 将匹配 8进制转义值 nm

\nml 如果 n 为 8进制数字 (0-3)

且 m 和 l 均为 8进制数字 (0-7)

则匹配 8进制转义值
nml

\un 匹配 n

其中 n 是

个用 4个十 6进制数字表示

Unicode

例如

\u00A9 匹配版
权符号 (?)

部分例子
正则表达式介绍说明
/\b([a-z]+) \1\b/gi

个单词连续出现

位置
/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ 将

个URL解析为协议、域、端口及相对路径
/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ 定位章节

位置
/[-a-z]/ A至z共26个字母再加

个-号

/ter\b/ 可匹配chapter

而不能terminal
/\Bapt/ 可匹配chapter

而不能aptitude
/Windows(?=95 |98 |NT )/ 可匹配Windows95或Windows98或WindowsNT,当找到

个匹配后

从
Windows后面开始进行下

次

检索匹配

标签：js正则表达式 java正则表达式正则表达式正则表达式学习

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式学习:正则表达式学习笔记 »正文

正则表达式学习:正则表达式学习笔记

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章