正则表达式:正则表达式中\w不能识别中文疯狂代码！

正则表达式用于

串处理

表单验证等场合

实用高效

但用到时总是不太把握

以致往往要上网查

番

我将

些常用

表达式收藏在这里

作备忘的用

本贴随时会更新

匹配中文

正则表达式: [\u4e00-\u9fa5]
匹配双字节

(包括汉字在内):[^\x00-\xff]
应用:计算

串

长度(

个双字节

长度计2

ASCII

计1)
String.prototype.len=function

{

this.replace([^\x00-\xff]/g,"aa").length;}
匹配空行

正则表达式:\n[\s| ]*\r
匹配HTML标记

正则表达式:/<(.*)>.*<\/\1>|<(.*) \/>/
匹配首尾空格

正则表达式:(^\s*)|(\s*$)
String.prototype.trim = function

{

this.replace(/(^\s*)|(\s*$)/g, "");
}
利用正则表达式分解和转换IP地址:
下面是利用正则表达式匹配IP地址

并将IP地址转换成对应数值

Javascript

:
function IP2V(ip)
{
re=/(\d+)\.(\d+)\.(\d+)\.(\d+)/g //匹配IP地址

正则表达式

(re.test(ip))
{

RegExp.$1*Math.pow(255,3))+RegExp.$2*Math.pow(255,2))+RegExp.$3*255+RegExp.$4*1
}

{
throw

Error("Not a valid IP address!")
}
}
不过上面

如果不用正则表达式

而直接用split

来分解可能更简单

如下:
var ip="10.100.20.168"
ip=ip.split(".")
alert("IP值是:"+(ip[0]*255*255*255+ip[1]*255*255+ip[2]*255+ip[3]*1))
匹配Email地址

正则表达式:\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
匹配网址URL

正则表达式:http://([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
利用正则表达式去除字串中重复

算法

:[注:此

不正确

原因见本贴回复]
var s="abacabefgeeii"
var s1=s.replace(/(.).*\1/g,"$1")
var re=

RegExp("["+s1+"]","g")
var s2=s.replace(re,"")
alert(s1+s2) //结果为:abcefgi
我原来在CSDN上发贴寻求

个表达式来实现去除重复

思路方法

最终没有找到

这是我能想到

最简单

实现思路方法

思路是使用后向引用取出包括重复

再以重复

建立第 2个表达式

取到不重复

两者串连

这个思路方法对于

顺序有要求

串可能不适用

得用正则表达式从URL地址中提取文件名

javascript

如下结果为page1
s="http://www.9499.net/page1.htm"
s=s.replace(/(.*\/){0,}([^\.]+).*/ig,"$2")
alert(s)
利用正则表达式限制网页表单里

文本框输入内容:
用正则表达式限制只能输入中文:onkeyup="value=value.replace(/[^\u4E00-\u9FA5]/g,'')" _disibledevent=>用正则表达式限制只能输入全角

: _disibledevent=>用正则表达式限制只能输入数字:onkeyup="value=value.replace(/[^\d]/g,'') "onbeforepaste="clipboardData.

Data('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
用正则表达式限制只能输入数字和英文:onkeyup="value=value.replace(/[\W]/g,'') "onbeforepaste="clipboardData.

Data('text',clipboardData.getData('text').replace(/[^\d]/g,''))"
------------------------------------------
另外从baidu

知道里边拿到些信息:
正则表达式

构造摘要
构造匹配

x
\\ 反斜线

\0n 带有 8进制值 0

n (0 <= n <= 7)
\0nn 带有 8进制值 0

nn (0 <= n <= 7)
\0mnn 带有 8进制值 0

mnn(0 <= m <= 3、0 <= n <= 7)
\xhh 带有十 6进制值 0x

hh
\uhhhh 带有十 6进制值 0x

hhhh
\t 制表符 ('\u0009')
\n 新行(换行)符 ('\u000A')
\r 回车符 ('\u000D')
\f 换页符 ('\u000C')
\a 报警 (bell) 符 ('\u0007')
\e 转义符 ('\u001B')
\cx 对应于 x

控制符

类
[abc] a、b 或 c(简单类)
[^abc] 任何

除了 a、b 或 c(否定)
[a-zA-Z] a 到 z 或 A 到 Z

两头

字母包括在内(范围)
[a-d[m-p]] a 到 d 或 m 到 p:[a-dm-p](并集)
[a-z&&[def]] d、e 或 f(交集)
[a-z&&[^bc]] a 到 z

除了 b 和 c:[ad-z](减去)
[a-z&&[^m-p]] a 到 z

而非 m 到 p:[a-lq-z](减去)
预定义

类
. 任何

(和行结束符可能匹配也可能不匹配)
\d 数字:[0-9]
\D 非数字: [^0-9]
\s 空白

:[ \t\n\x0B\f\r]
\S 非空白

:[^\s]
\w 单词

:[a-zA-Z_0-9]
\W 非单词

:[^\w]
POSIX

类(仅 US-ASCII)
\p{Lower} 小写字母

:[a-z]
\p{Upper} 大写字母

:[A-Z]
\p{ASCII} 所有 ASCII:[\x00-\x7F]
\p{Alpha} 字母

:[\p{Lower}\p{Upper}]
\p{Digit} 十进制数字:[0-9]
\p{Alnum} 字母数字

:[\p{Alpha}\p{Digit}]
\p{Punct} 标点符号:!"#$%&'

*+,-./:;<=>?@[\]^_`{|}~
\p{Graph} 可见

:[\p{Alnum}\p{Punct}]
\p{Pr

} 可打印

:[\p{Graph}\x20]
\p{Blank} 空格或制表符:[ \t]
\p{Cntrl} 控制

:[\x00-\x1F\x7F]
\p{XDigit} 十 6进制数字:[0-9a-fA-F]
\p{Space} 空白

:[ \t\n\x0B\f\r]
java.lang.Character 类(简单

java

类型)
\p{javaLowerCase} 等效于 java.lang.Character.isLowerCase

\p{javaUpperCase} 等效于 java.lang.Character.isUpperCase

\p{javaWhitespace} 等效于 java.lang.Character.isWhitespace

\p{javaMirrored} 等效于 java.lang.Character.isMirrored

Unicode 块和类别

类
\p{InGreek} Greek 块(简单块)中

\p{Lu} 大写字母(简单类别)
\p{Sc} 货币符号
\P{InGreek} 所有

Greek 块中

除外(否定)
[\p{L}&&[^\p{Lu}]] 所有字母

大写字母除外(减去)
边界匹配器
^ 行

开头
$ 行

结尾
\b 单词边界
\B 非单词边界
\A 输入

开头
\G 上

个匹配

结尾
\Z 输入

结尾

仅用于最后

结束符(如果有

话)
\z 输入

结尾
Greedy 数量词
X? X

次或

次也没有
X* X

零次或多次
X+ X

次或多次
X{n} X

恰好 n 次
X{n,} X

至少 n 次
X{n,m} X

至少 n 次

但是不超过 m 次
Reluctant 数量词
X?? X

次或

次也没有
X*? X

零次或多次
X+? X

次或多次
X{n}? X

恰好 n 次
X{n,}? X

至少 n 次
X{n,m}? X

至少 n 次

但是不超过 m 次
Possessive 数量词
X?+ X

次或

次也没有
X*+ X

零次或多次
X

次或多次
X{n}+ X

恰好 n 次
X{n,}+ X

至少 n 次
X{n,m}+ X

至少 n 次

但是不超过 m 次
Logical 运算符
XY X 后跟 Y
X|Y X 或 Y
(X) X

作为捕获组
Back 引用
\n 任何匹配

nth 捕获组
引用
\ Nothing

但是引用以下

\Q Nothing

但是引用所有

直到 \E
\E Nothing

但是结束从 \Q 开始

引用
特殊构造(非捕获)
(?:X) X

作为非捕获组
(?idmsux-idmsux) Nothing

但是将匹配标志由 _disibledevent=>(?!X) X

通过零宽度

负 lookahead
(?<=X) X

通过零宽度

正 lookbehind
(?<!X) X

通过零宽度

负 lookbehind
(?>X) X

作为独立

非捕获组
--------------------------------------------------------------------------------
反斜线、转义和引用
反斜线

('\') 用于引用转义构造

如上表所定义

同时还用于引用其他将被解释为非转义构造

因此

表达式 \\ 和单个反斜线匹配

而 \{ 和左括号匹配

在不表示转义构造

任何字母

前使用反斜线都是

；它们是为将来扩展正则表达式语言保留

可以在非字母

前使用反斜线

不管该

是否非转义构造

部分

根据 Java Language Spec

ication

要求

Java 源代码

串中

反斜线被解释为 Unicode 转义或其他

转义

因此必须在

串字面值中使用两个反斜线

表示正则表达式受到保护

不被 Java 字节码编译器解释

例如

当解释为正则表达式时

串字面值 "\b" 和单个退格

匹配

而 "\\b" 和单词边界匹配

串字面值 "$hello$" 是非法

将导致编译时

；要和

串 (hello) 匹配

必须使用

串字面值 "\$hello\$"

类

类可以出现在其他

类中

并且可以包含并集运算符(隐式)和交集运算符 (&&)

并集运算符表示至少包含其某个操作数类中所有

类

交集运算符表示包含同时位于其两个操作数类中所有

类

类运算符

优先级如下所示

按从最高到最低

顺序排列:
1 字面值转义 \x
2 分组 [...]
3 范围 a-z
4 并集 [a-e][i-u]
5 交集 [a-z&&[aeiou]]
注意

元

区别集合实际上位于

类

内部

而非

类

外部

例如

正则表达式 . 在

类内部就失去了其特殊意义

而表达式 - 变成了形成元

范围

行结束符
行结束符是

个或两个

序列

标记输入

序列

行结尾

以下代码被识别为行结束符:
新行(换行)符 ('\n')、
后面紧跟新行符

回车符 ("\r\n")、
单独

回车符 ('\r')、
下

行

('\u0085')、
行分隔符 ('\u2028') 或
段落分隔符 ('\u2029)

如果激活 UNIX_LINES 模式

则新行符是惟

识别

行结束符

如果未指定 DOTALL 标志

则正则表达式 . 可以和任何

(行结束符除外)匹配

默认情况下

正则表达式 ^ 和 $ 忽略行结束符

仅分别和整个输入序列

开头和结尾匹配

如果激活 MULTILINE 模式

则 ^ 在输入

开头和行结束符的后(输入

结尾)才发生匹配

处于 MULTILINE 模式中时

$ 仅在行结束符的前或输入序列

结尾处匹配

组和捕获
捕获组可以通过从左到右计算其开括号来编号

例如

在表达式 ((A)(B(C))) 中

存在 4个这样

组:
1 ((A)(B(C)))
2 \A
3 (B(C))
4 (C)
组零始终代表整个表达式

的所以这样命名捕获组是

在匹配中

保存了和这些组匹配

输入序列

每个子序列

捕获

子序列稍后可以通过 Back 引用在表达式中使用

也可以在匹配操作完成后从匹配器检索

和组关联

捕获输入始终是和组最近匹配

子序列

如果由于量化

缘故再次计算了组

则在第 2次计算失败时将保留其以前捕获

值(如果有

话)例如

将

串 "aba" 和表达式 (a(b)?)+ 相匹配

会将第 2组设置为 "b"

在每个匹配

开头

所有捕获

输入都会被丢弃

以 (?) 开头

组是纯

非捕获组

它不捕获文本

也不针对组合计进行计数

Tags: 正则表达式数字 js正则表达式 java正则表达式正则表达式

正则表达式:正则表达式中\w不能识别中文

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注