正则表达式应用:正则表达式在网页处理中的应用 4则疯狂代码！

正则表达式(Regular Expression)为

串模式匹配提供了

种高效、方便

思路方法

几乎所有高级语言都提供了对正则表达式

支持

或者提供了现成

代码库供

本文以ASP环境中常见

处理任务为例

介绍正则表达式

应用窍门技巧

、检验密码和邮件地址格式

我们

第

个例子示范正则表达式

项基本功能:抽象地描述任意复杂

串

它

意思就是

正则表达式给予

员

种形式化

串描述思路方法

只需很少

代码即可描述出应用遇到

任意

串模式

例如

对于不从事技术工作

人来说

密码格式

要求可以描述如下:密码

第

个

必须是字母

密码最少4个

且不超过15个

密码不能包含除字母、数字和下划线以外

作为

员

我们必须把上面对密码格式

自然语言描述转换成其他形式

使得ASP页面能够理解并应用它来防止非法

密码输入

描述这个密码格式

正则表达式是:^[a-zA-Z]\w{3,14}$

在ASP应用里

我们可以把密码验证过程写成可重用

如下所示:

Function TestPassword(strPassword)
Dim re
Set re =

RegExp
re.IgnoreCase = false
re.global = false
re.Pattern = "^[a-zA-Z]\w{3,14}$"
TestPassword = re.Test(strPassword)
End Function

下面我们把这个检验密码格式

正则表达式和自然语言描述对比着看看:
密码

第

个

必须是字母:正则表达式描述是“^[a-zA-Z]”

其中“^”表示

串

开始

连

告诉RegExp匹配指定范围

所有

密码最少4个

且不超过15个

:正则表达式描述是“{3,14}”

密码不能包含除字母、数字和下划线以外

:正则表达式描述是“\w”

几点介绍说明:{3

14}表示前面

模式匹配至少3个、但不超过14个

(加上第

个

就成了4到15个

)

注意花括号内

语法要求极其严格

不允许在逗号

两边加入空格

如果加入了空格

它将对正则表达式

含义产生影响

导致密码格式检验时产生

另外

上面

正则表达式末尾也没有加上“$”

使得正则表达式匹配

串直至末尾

确保合法

密码后面没有加上任何其他

类似于密码格式检验

检查email地址

合法性也是

个很常见

问题

用正则表达式进行简单

email地址检验可以实现如下:

＜%
Dim re
Set re =

RegExp
re.pattern = "^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$"
Response.Write re.Test("[email protected]")
%＞

2、提取HTML页面特定部分

从HTML页面提取内容所面临

主要问题是

我们必须寻找

种思路方法精确地识别出自己想要

那

部分内容

例如

下面是

个显示新闻标题

HTML代码片断:

＜table border="0" width="11%"

="Somestory"＞
＜tr＞
＜td width="100%"＞
＜p align="center"＞其他内容...＜/td＞
＜/tr＞
＜/table＞
＜table border="0" width="11%"

="Headline"＞
＜tr＞
＜td width="100%"＞
＜p align="center"＞伊拉克战争！＜/td＞
＜/tr＞
＜/table＞
＜table border="0" width="11%"

="Someotherstory"＞
＜tr＞
＜td width="100%"＞
＜p align="center"＞其他内容...＜/td＞
＜/tr＞
＜/table＞

观察上述代码

很容易看出新闻标题由位于中间

表格显示

它

属性设置为Headline

如果HTML页面非常复杂

使用Microsoft IE从5.0开始提供

项附加功能可以只查看被选中部分页面

HTML代码

请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情

对于本例

我们假定这是唯

属性设置为Headline

表格

现在我们要创建正则表达式

通过正则表达式找到这个Headline表格并把这个表格包含到自己

页面中

首先是编写支持正则表达式

代码:

＜%
Dim re, strHTML
Set re =

RegExp ' 创建正则表达式对象
re.IgnoreCase = true
re.Global = false ' 第

次匹配的后结束查找
%＞

下面考虑

下我们要提取

区域:在这里

我们要提取

是整个＜table＞结构

包括结束标记和新闻标题

文本

因此查找

起始

应该是＜table＞开始标记: re.Pattern = "＜table.*(?=Headline)"

这个正则表达式匹配表格

开始标记

能够返回开始标记直至“Headline”的间

所有内容(换行除外)

下面是返回已匹配HTML代码

思路方法:

' 把所有匹配

HTML代码放入Matches集合
Set Matches = re.Execute(strHTML)
' 显示所有匹配

HTML代码
For Each Item in Matches
Response.Write Item.Value
Next
' 显示其中

项
Response.write Matches.Item(0).Value

运行这段代码处理前面显示

HTML片断

正则表达式返回

次匹配

内容如下: ＜table border="0" width="11%"

正则表达式中

“(?=Headline)”没有获取

所以不能看到表格

属性

值

要获取表格剩余部分

代码也相当简单: re.Pattern = "＜table.*(?=Headline)(.|\n)*?＜/table＞"

其中:“(.|\n)”后面

“*”匹配0个到多个任意

；而“？”使得“*”匹配范围最小化

即在找到表达式

下

部分的前匹配尽可能少

＜/table＞是表格

结束标记

“?”限制符非常重要

它防止了表达式返回其他表格

代码

例如对于前面给出

HTML代码片断

如果删除这个“?”则返回内容将是:

＜table border="0" width="11%"

="Headline"＞
＜tr＞
＜td width="100%"＞
＜p align="center"＞伊拉克战争！＜/td＞
＜/tr＞
＜/table＞
＜table border="0" width="11%"

="Someotherstory"＞
＜tr＞
＜td width="100%"＞
＜p align="center"＞其他内容...＜/td＞
＜/tr＞
＜/table＞

返回

内容不仅包含了Headline表

＜table＞标记

而且还包含了Someotherstory表格

由此可以看出

这里

“?”是必不可少

本例假设了

些相当理想化

前提

实际应用中情况往往要复杂得多

特别是你对正在使用

源HTML代码

编写没有任何影响力时

编写ASP代码尤为困难

最有效

思路方法是

多花些时间分析待提取内容附近

HTML

经常地测试

确保提取出来

内容正是自己所需要

另外

应当重视并处理正则表达式不能匹配源HTML页面任何内容

情形

内容

更新可能非常快速

不要只

别人改变了内容

格式而让自己

页面出现低级可笑

=f14> 3、解析文本数据文件
数据文件

格式和种类很多

XML文档、结构化文本甚至非结构化文本都经常成为ASP应用

数据源

下面我们要看

个例子是使用限定符

结构化文本文件

限定符(比如引号)表示

串各个部分不可分割

即使

串内部包含把记录分隔成字段

分隔符也

样

下面是

个简单

结构化文本文件:

姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, ASP很好
猪, 8戒, 847 555 5656, 我是电影制片人

这个文件非常简单

它

第

行是标题

下面两行是用逗号作为分隔符

记录

要解析这个文件也很简单

只需先把文件分割成行(根据换行符号)

然后把各个记录按照字段分割

但是

如果我们在某个字段内容中加入了逗号: 姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪, 8戒, 847 555 5656, 我是电影制片人

解析第

个记录时就会出现问题

在只认可逗号分隔符

解析器看来它

最后

个字段包含了两个字段

内容

为了避免出现这类问题

包含分隔符

字段必须用限定符包围

单引号就是

种常用

限定符

把上面

文本文件加上单引号限定符的后

它

内容如下所示: 姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪, 8戒, 847 555 5656, '我是电影制片人'

现在我们能够肯定哪

个逗号是分隔符、哪

个逗号是字段内容了

即只需把引号内部出现

逗号视为字段

内容

接下来我们要做

就是实现

个正则表达式解析器

由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容

这里

问题和大多数正则表达式所面临

略有区别

通常我们查看

是文本

小部分

看看它是否能够和正则表达式匹配

但在这里

只有考虑了整行文本的后我们才能可靠地判断出哪些内容位于引号的内

下面是

个介绍说明该问题

例子

从某个文本文件随意抽取半行内容

得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ',

在这个例子中

“1”

左边还有其他数据

要解析清楚它

内容是极其困难

我们不知道这个数据片断

前面有多少单引号

从而也就无法判断哪些

位于引号的内(在引号的内

文本解析时不能分割)

如果这个数据片断的前有偶数个(或者没有)单引号

那么“', 狗, 猫, 鸭子, '”是用引号界定

串且不可分割

如果前面

引号数量是奇数

那么“1, 沙滩, 黑色, 21, '”是某个

串

结束部分且不可分割

因此

正则表达式必须分析整行文本

全面考虑出现了多少引号才能确定

是处在引号对

内部还是外部

即:,(?=([^']*'[^']*')*(?![^']*'))

这个正则表达式首先找到

个引号

然后继续查找并保证逗号后面

单引号数量或者是偶数、或者是0

该正则表达式以下面这个判断为基础:如果逗号后面

单引号数量是偶数

那么这个逗号位于

串的外

下表给出了更详细

介绍说明:

, 寻找

个逗号
(?= 继续向前查找以匹配下面这个模式:
( 开始

个新

模式
[^']*' [非引号

]0个或者多个

然后是

个引号
[^']*'[^']*) [非引号

]0个或者多个

然后是

个引号

结合前面

内容的后它匹配引号对
)* 结束模式并匹配整个模式(引号对)0次或者多次
(?! 向前查找

排除此模式
[^']*' [非引号

]0个或者多个

然后是

个引号
) 结束模式

下面是

个VBScript

它接受

个

串参数

根据

串中

逗号分隔符、单引号限定符分割

串

返回结果

: Function SplitAdv(strInput)
Dim objRE
Set objRE =

RegExp
' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace思路方法用chr(8)替换我们要用到

逗号

chr(8)即\b
'

\b在

串中出现

可能极为微小

' 然后我们根据\b把

串分割保存到

SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function

总而言的

用正则表达式解析文本数据文件具有高效、缩短开发时间

优点

能够节省大量分析文件、根据复杂

条件提取有用数据

时间

在

个迅速发展

环境中仍会有许多传统

数据可资利用

掌握如何构造高效

数据分析例程将是

种宝贵

技能

4、串替换

在最后

个例子中我们要看看VBScript正则表达式

替换功能

ASP经常用于动态地格式化从各种数据源获得

文本

利用VBScript正则表达式

强大功能

ASP能够动态地改变匹配

复杂文本

通过加入HTML标记突出显示部分单词就是

种常见

应用

比如突出显示搜索结果中

搜索关键词

为介绍说明实现思路方法

下面我们来看

个突出显示

串中所有“.NET”

例子

这个

串可以从任何地方获得

比如数据库或者其他Web网站WebSite

＜%
Set regEx = New RegExp
regEx.Global = true
regEx.IgnoreCase = True
' 正则表达式模式

' 寻找任何结尾为“.NET”

单词或者URL

regEx.Pattern = "(\b[a-zA-Z\._]+?\.NET\b)"
' 用于测试替换功能

串
strText = "微软建立了

个新网站WebSitewww.ASP.NET

"
'

正则表达式

Replace思路方法
' $1表示把匹配

文本插入当前位置
Response.Write regEx.Replace(strText, _
"＜b style='color: #000099; font-size: 18pt'＞$1＜/b＞")
%＞

这个例子中有几个重要

地方必须注意

整个正则表达式被放入了

对圆括号中

它

作用是截取所有匹配

内容供以后使用

这些内容在替换文本中通过$1引用

类似

截取每次替换可以使用多达9个

分别通过$1到$9引用

正则表达式

Replace思路方法和VBScript本身

Replace

区别

它只需要两个参数:被搜索

文本

替换用

文本

在这个例子中

为了突出显示搜索到

“.NET”

串

我们用粗体标记以及其他样式属性来包围这些

串

使用这种搜索和替换技术

我们能够方便地为网站WebSite搜索

加上突出显示搜索关键词

功能

或者自动为页面中出现

关键词加上指向其他页面

链接

结束语

希望本文介绍

几种正则表达式窍门技巧对你在何时、如何应用正则表达式有所启发

虽然本文

例子用VBScript编写

但在ASP.NET中正则表达式同样也大有用武的地

它是服务器端Control控件表单检验

主要机制的

而且通过

.Text.RegularExpressions命名空间导出到了整个.NET框架的中

(

Tags: js正则表达式 java正则表达式正则表达式正则表达式应用

正则表达式应用:正则表达式在网页处理中的应用 4则

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注