正则表达式应用:正则表达式在网页处理中的应用 4则

正则表达式(Regular Expression)为串模式匹配提供了种高效、方便思路方法几乎所有高级语言都提供了对正则表达式支持或者提供了现成代码库供本文以ASP环境中常见处理任务为例介绍正则表达式应用窍门技巧

、检验密码和邮件地址格式

我们个例子示范正则表达式项基本功能:抽象地描述任意复杂意思就是正则表达式给予种形式化串描述思路方法只需很少代码即可描述出应用遇到任意串模式例如对于不从事技术工作人来说密码格式要求可以描述如下:密码必须是字母密码最少4个且不超过15个密码不能包含除字母、数字和下划线以外

作为我们必须把上面对密码格式自然语言描述转换成其他形式使得ASP页面能够理解并应用它来防止非法密码输入描述这个密码格式正则表达式是:^[a-zA-Z]\w{3,14}$在ASP应用里我们可以把密码验证过程写成可重用如下所示:

Function TestPassword(strPassword)
Dim re
Set re = RegExp
re.IgnoreCase = false
re.global = false
re.Pattern = "^[a-zA-Z]\w{3,14}$"
TestPassword = re.Test(strPassword)
End Function



下面我们把这个检验密码格式正则表达式和自然语言描述对比着看看:
密码必须是字母:正则表达式描述是“^[a-zA-Z]”其中“^”表示开始告诉RegExp匹配指定范围所有
密码最少4个且不超过15个:正则表达式描述是“{3,14}”
密码不能包含除字母、数字和下划线以外:正则表达式描述是“\w”

几点介绍说明:{314}表示前面模式匹配至少3个、但不超过14个(加上第就成了4到15个)注意花括号内语法要求极其严格不允许在逗号两边加入空格如果加入了空格它将对正则表达式含义产生影响导致密码格式检验时产生另外上面正则表达式末尾也没有加上“$”$使得正则表达式匹配串直至末尾确保合法密码后面没有加上任何其他

类似于密码格式检验检查email地址合法性也是个很常见问题用正则表达式进行简单email地址检验可以实现如下:

<%
Dim re
Set re = RegExp
re.pattern = "^\w+@[a-zA-Z_]+?\.[a-zA-Z]{2,3}$"
Response.Write re.Test("[email protected]")
%>





2、提取HTML页面特定部分

从HTML页面提取内容所面临主要问题是我们必须寻找种思路方法精确地识别出自己想要部分内容例如下面是个显示新闻标题HTML代码片断:

<table border="0" width="11%" ="Somestory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>
<table border="0" width="11%" ="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" ="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>



观察上述代码很容易看出新闻标题由位于中间表格显示属性设置为Headline如果HTML页面非常复杂使用Microsoft IE从5.0开始提供项附加功能可以只查看被选中部分页面HTML代码请访问http://www.microsoft.com/Windows/ie/WebAccess/default.ASP了解详情对于本例我们假定这是唯属性设置为Headline表格现在我们要创建正则表达式通过正则表达式找到这个Headline表格并把这个表格包含到自己页面中首先是编写支持正则表达式代码:

<%
Dim re, strHTML
Set re = RegExp ' 创建正则表达式对象
re.IgnoreCase = true
re.Global = false ' 第次匹配的后结束查找
%>



下面考虑下我们要提取区域:在这里我们要提取是整个<table>结构包括结束标记和新闻标题文本因此查找起始应该是<table>开始标记: re.Pattern = "<table.*(?=Headline)"

这个正则表达式匹配表格开始标记能够返回开始标记直至“Headline”的间所有内容(换行除外)下面是返回已匹配HTML代码思路方法:

' 把所有匹配HTML代码放入Matches集合
Set Matches = re.Execute(strHTML)
' 显示所有匹配HTML代码
For Each Item in Matches
Response.Write Item.Value
Next
' 显示其中
Response.write Matches.Item(0).Value



运行这段代码处理前面显示HTML片断正则表达式返回次匹配内容如下: <table border="0" width="11%" ="正则表达式中“(?=Headline)”没有获取所以不能看到表格属性

要获取表格剩余部分代码也相当简单: re.Pattern = "<table.*(?=Headline)(.|\n)*?</table>"其中:“(.|\n)”后面“*”匹配0个到多个任意;而“?”使得“*”匹配范围最小化即在找到表达式部分的前匹配尽可能少</table>是表格结束标记

“?”限制符非常重要它防止了表达式返回其他表格代码例如对于前面给出HTML代码片断如果删除这个“?”则返回内容将是:

<table border="0" width="11%" ="Headline">
<tr>
<td width="100%">
<p align="center">伊拉克战争!</td>
</tr>
</table>
<table border="0" width="11%" ="Someotherstory">
<tr>
<td width="100%">
<p align="center">其他内容...</td>
</tr>
</table>



返回内容不仅包含了Headline表<table>标记而且还包含了Someotherstory表格由此可以看出这里“?”是必不可少

本例假设了些相当理想化前提实际应用中情况往往要复杂得多特别是你对正在使用源HTML代码编写没有任何影响力时编写ASP代码尤为困难最有效思路方法是多花些时间分析待提取内容附近HTML经常地测试确保提取出来内容正是自己所需要

另外应当重视并处理正则表达式不能匹配源HTML页面任何内容情形内容更新可能非常快速不要只别人改变了内容格式而让自己页面出现低级可笑

=f14> 3、解析文本数据文件
数据文件格式和种类很多XML文档、结构化文本甚至非结构化文本都经常成为ASP应用数据源下面我们要看个例子是使用限定符结构化文本文件限定符(比如引号)表示串各个部分不可分割即使串内部包含把记录分隔成字段分隔符也 下面是个简单结构化文本文件:

姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, ASP很好
猪, 8戒, 847 555 5656, 我是电影制片人



这个文件非常简单行是标题下面两行是用逗号作为分隔符记录要解析这个文件也很简单只需先把文件分割成行(根据换行符号)然后把各个记录按照字段分割但是如果我们在某个字段内容中加入了逗号: 姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪, 8戒, 847 555 5656, 我是电影制片人



解析第个记录时就会出现问题在只认可逗号分隔符解析器看来它最后个字段包含了两个字段内容为了避免出现这类问题包含分隔符字段必须用限定符包围单引号就是种常用限定符把上面文本文件加上单引号限定符的后内容如下所示: 姓,名, 电话, 介绍说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪, 8戒, 847 555 5656, '我是电影制片人'



现在我们能够肯定哪个逗号是分隔符、哪个逗号是字段内容了即只需把引号内部出现逗号视为字段内容接下来我们要做就是实现个正则表达式解析器由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容

这里问题和大多数正则表达式所面临略有区别通常我们查看是文本小部分看看它是否能够和正则表达式匹配但在这里只有考虑了整行文本的后我们才能可靠地判断出哪些内容位于引号的内

下面是个介绍说明该问题例子从某个文本文件随意抽取半行内容得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 在这个例子中“1”左边还有其他数据要解析清楚它内容是极其困难我们不知道这个数据片断前面有多少单引号从而也就无法判断哪些位于引号的内(在引号的内文本解析时不能分割)如果这个数据片断的前有偶数个(或者没有)单引号那么“', 狗, 猫, 鸭子, '”是用引号界定串且不可分割如果前面引号数量是奇数那么“1, 沙滩, 黑色, 21, '”是某个结束部分且不可分割

因此正则表达式必须分析整行文本全面考虑出现了多少引号才能确定是处在引号对内部还是外部即:,(?=([^']*'[^']*')*(?![^']*'))这个正则表达式首先找到个引号然后继续查找并保证逗号后面单引号数量或者是偶数、或者是0该正则表达式以下面这个判断为基础:如果逗号后面单引号数量是偶数那么这个逗号位于串的外下表给出了更详细介绍说明:

, 寻找个逗号
(?= 继续向前查找以匹配下面这个模式:
( 开始个新模式
[^']*' [非引号]0个或者多个然后是个引号
[^']*'[^']*) [非引号]0个或者多个然后是个引号结合前面内容的后它匹配引号对
)* 结束模式并匹配整个模式(引号对)0次或者多次
(?! 向前查找排除此模式
[^']*' [非引号]0个或者多个然后是个引号
) 结束模式

下面是个VBScript它接受串参数根据串中逗号分隔符、单引号限定符分割返回结果: Function SplitAdv(strInput)
Dim objRE
Set objRE = RegExp
' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace思路方法用chr(8)替换我们要用到逗号chr(8)即\b
' \b在串中出现可能极为微小
' 然后我们根据\b把串分割保存到
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function



总而言的用正则表达式解析文本数据文件具有高效、缩短开发时间优点能够节省大量分析文件、根据复杂条件提取有用数据时间个迅速发展环境中仍会有许多传统数据可资利用掌握如何构造高效数据分析例程将是种宝贵技能

4、串替换

在最后个例子中我们要看看VBScript正则表达式替换功能ASP经常用于动态地格式化从各种数据源获得文本利用VBScript正则表达式强大功能ASP能够动态地改变匹配复杂文本通过加入HTML标记突出显示部分单词就是种常见应用比如突出显示搜索结果中搜索关键词
为介绍说明实现思路方法下面我们来看个突出显示串中所有“.NET”例子这个串可以从任何地方获得比如数据库或者其他Web网站WebSite

<%
Set regEx = New RegExp
regEx.Global = true
regEx.IgnoreCase = True
' 正则表达式模式
' 寻找任何结尾为“.NET”单词或者URL
regEx.Pattern = "(\b[a-zA-Z\._]+?\.NET\b)"
' 用于测试替换功能
strText = "微软建立了个新网站WebSitewww.ASP.NET"
' 正则表达式Replace思路方法
' $1表示把匹配文本插入当前位置
Response.Write regEx.Replace(strText, _
"<b style='color: #000099; font-size: 18pt'>$1</b>")
%>



这个例子中有几个重要地方必须注意整个正则表达式被放入了对圆括号中作用是截取所有匹配内容供以后使用这些内容在替换文本中通过$1引用类似截取每次替换可以使用多达9个分别通过$1到$9引用正则表达式Replace思路方法和VBScript本身Replace区别它只需要两个参数:被搜索文本替换用文本
在这个例子中为了突出显示搜索到“.NET”我们用粗体标记以及其他样式属性来包围这些使用这种搜索和替换技术我们能够方便地为网站WebSite搜索加上突出显示搜索关键词功能或者自动为页面中出现关键词加上指向其他页面链接

结束语

希望本文介绍几种正则表达式窍门技巧对你在何时、如何应用正则表达式有所启发虽然本文例子用VBScript编写但在ASP.NET中正则表达式同样也大有用武的地它是服务器端Control控件表单检验主要机制的而且通过.Text.RegularExpressions命名空间导出到了整个.NET框架的中(

Tags:  js正则表达式 java正则表达式 正则表达式 正则表达式应用

延伸阅读

最新评论

发表评论