Rss订阅

首页 »编程综合 » 正则表达式单词:正则基础的 \b 单词边界 »正文

正则表达式单词:正则基础的 \b 单词边界

来源: 发布时间:星期一, 2009年9月7日浏览:8次评论:0

1概述
“\b”匹配单词边界

不匹配任何

“\b”匹配

只是

个位置

这个位置

侧是构成单词

另

侧为非单词

、

串

开始或结束位置

“\b”是零宽度

基本上所有

资料里都会说“\b”是单词边界

但是有关“单词”

范围却是少有提及

通常情况下

正则表达式中所谓

“单词”

就是由“\w”所定义

所组成

子串

“\b”表示所在位置

侧为单词

另

侧为非单词

、

串

开始或结束位置

也就相当于
(?<!\w)(?=\w)|(?<=\w)(?!\w)
研究:以下写法为什么不等价于“\b”
(?<=\W)(?=\w)|(?<=\w)(?=\W)
2\w范围
即然涉及到“\w”

那就要先考察

下它

范围

在支持ASCII码

语言中

如JavaScript

“\w”等价于[a-zA-Z0-9_] ；
在支持Unicode

语言中

如.NET

默认情况下

“\w”除可以匹配[a-zA-Z0-9_]外

还可以匹配

些Unicode

集

如汉字

全角数字等等

几乎所有常见

语言都遵循这样

个规律

只有Java是个例外

在Java中

“\w”

表现是比较奇怪

Java是支持Unicode

但Java

正则中

“\w”却是等价于[a-zA-Z0-9_]

先来看

下“\w”在几种语言中匹配

例子
JavaScript
复制代码代码如下:

<script language="javascript">
var str = "abc_123中文_d3=efg汉字%";
var reg = /\w+/g;
var arr = str.match(reg);

(arr != null)
{
for(var i=0;i<arr.length;i

)
{
document.write(arr[i] + "<br />");
}
}
</script>
//JavaScript中输出
abc_123
_d3
efg

C#
复制代码代码如下:

test = "abc_123中文_d3=efg汉字%";
MatchCollection mc = Regex.Matches(test, @"\w+");
foreach (Match m in mc)
{
richTextBox2.Text

m.Value + "\n";
}
//C#中输出
abc_123中文_d3
efg汉字

Java
复制代码代码如下:

String test = "abc_123中文_d3=efg汉字%";
String reg = "\\w+";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find

)
{

.out.pr

ln(m.group

);
}
//Java中输出
abc_123
_d3
efg

可以看到

“\w”在Java中

输出和JavaScript中是

样

都是只支持ASCII

3 \b范围
常见语言中“\w”

范围确定了

那么是不是可以认为“\b”

匹配范围和“\w”也是

致

呢？
再看下下面

例子:
源

串:abc_123中文_d3=汉字efg
正则表达式:.\b.
JavaScript
复制代码代码如下:

<script language="javascript">
var str = "abc_123中文_d3=efg汉字%";
var reg = /.\b./g;
var arr = str.match(reg);

(arr != null)
{
for(var i=0;i<arr.length;i

)
{
document.write(arr[i] + "<br />");
}
}
</script>
//JavaScript中输出
3中
文_
3=
g汉

C#
复制代码代码如下:

test = "abc_123中文_d3=efg汉字%";
MatchCollection mc = Regex.Matches(test, @".\b.");
foreach (Match m in mc)
{
richTextBox2.Text

m.Value + "\n";
}
//C#中输出
3=
字%

Java
复制代码代码如下:

String test = "abc_123中文_d3=efg汉字%";
String reg = ".\\b.";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find

)
{

.out.pr

ln(m.group

);
}
//Java中输出
3=
字%

可以看到

Java

输出和.NET是

致

“\b”在Java中是支持Unicode

所以总

来说

Java中

“\w”是很奇怪

而“\b”是和其它语言表现

致

在使用时需要注意

4 \b应用场景
4.1 基础应用
“\b”

般应用在需要匹配某

单词

组成

子串

但这

不能包含在同样由单词

组成

更长

子串中

比如要替换掉

段英文中

单词“to”

而“today”显然不在替换

范围内

所以正则可以用“\bto\b”来限定

用得比较多

场景是在HTML标签

匹配中

用以区分相互包含

标签

比如要过滤掉<b>、</b>、<p…>、<img…>等标签

但要保留<br />标签

正则可以写成“<(/?b|p|img)\b[^>]*>”

举例:统计以“,”分割

元素中“3”

个数

test = "137,1,33,4,3,6,21,3,35,93,2,98";

count = Regex.Matches(test, @"\b3\b").Count; //结果:2
4.2 进阶应用
稍复杂

些

应用通常都是和其它

些正则语法规则

起使用

参考

个帖子
求

正则表达式
4.3 特殊情况
“\b”用在正则中

通常情况下都是表示单词边界

只有在

组中

它表示

是退格键

即
[a-z\b]
此处

“\b”表示

是退格键

而不是单词边界

标签：名不正则言不顺正则表达式正则表达式基础正则表达式单词

下载文章的 PDF文档电子版离线看

我顶

专注于互联网--专注于架构

首页 »编程综合 » 正则表达式单词:正则基础的 \b 单词边界 »正文

正则表达式单词:正则基础的 \b 单词边界

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章