java正则表达式:正则表达式来源: 发布时间:星期日, 2009年9月6日 浏览:2次 评论:0
我们要解析个HTML文档时可利用正则表达式取得标签内容
例子: 以从串中取出所有A标签 id号和内容为例: <a id="1" target="_blank">aaaaaaaaaa</a> 正则表达式: <a[^<]*id[^<]*=[^<]*"(?<ID>[^<]*)"[^<]*target[^<]*=[^<]*"[^<]*_blank[^<]*" [^<]*>(?<content>[^<]*)</a> 正则分解: [^<]* 是个很有用组合,能定位到下个查询关键字 (?<ID>[^<]*) 用于取得个或者多个值直到遇到下个关键字 <ID> 类似个正则变量给用号取得内容进行标识以便于 C#例子: strRegex=@"<a[^<]*id[^<]*=[^<]*"(?<ID>[^<]*)"[^<]*target[^<]*=[^<]*"[^<]*_blank[^<]*" [^<]*>(?<CONTENT>[^<]*)</a>"; strSource="<a id=\"1\" target=\"_blank\">aaaaaaaaaa</a>" .Text.RegularExpressions.Regex r; .Text.RegularExpressions.MatchCollection m; mc= .Text.RegularExpressions.Regex(strRegex, .Text.RegularExpressions.RegexOptions.IgnoreCase); ro = mc.Matches(strSource); (ro.Count >= 0) { for ( i = 0; i < m.Count; i) { //取出ID和内容 id = ro[i].Groups["ID"].Value; topic = ro[i].Groups["CONTENT"].Value; } } 0
相关文章读者评论发表评论 |