水质分析方法探讨,从网页中分析正文探讨(一)

做网站的朋友们不免都会涉及到要从其他网站抓取一些信息。 1. 常用的办法是用正则表达式来获取 优点:比较精准,一蹴而就,不会遗漏你需要的内容 缺点:全中国这么多网页,如果写正则表达式要写到发疯! 如果目标网页一旦改版就要重新写正则表达式,人工排查工作太大。2. 我们要讨论的是是否能自动分析网页正文 (标题在下一章节讲) 有两个思路 第一是:关键字匹配法(本次主要讲述此方法,仅思路,因商业原因不提... [阅读全文]
1 共1条 分1页