专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » 搜索引擎作弊:数学的美系列十 7:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM) »正文

搜索引擎作弊:数学的美系列十 7:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

来源: 发布时间:星期一, 2010年1月25日 浏览:0次 评论:0
  自从有了搜索引擎就有了针对搜索引擎网页排名作弊(SPAM)以至于用户发现在搜索引擎中排名靠前网页不定就是高质量用句俗话说闪光定是金子

  搜索引擎作弊虽然思路方法很多只有就是采用不正当手段提高自己网页排名早期最常见作弊思路方法是重复关键词比如个卖数码相机网站WebSite重复地罗列各种数码相机品牌如尼康、佳能和柯达等等为了不让读者看到众多讨厌关键词聪明作弊者常用很小字体和和背景相同颜色来掩盖这些关键词其实这种做法很容易被搜索引擎发现并纠正

  在有了网页排名(page rank)以后作弊者发现个网页被引用连接越多排名就可能越靠前于是就有了专门卖链接和买链接生意比如有人自己创建成百上千个网站WebSite这些网站WebSite上没有实质内容只有到他们客户网站WebSite连接这种做法比重复关键词要高明得多但是还是不太难被发现那些所谓帮别人提高排名网站WebSite为了维持生意需要大量地卖链接所以很容易露马脚(这就如同造假钞票当某种假钞票流通量相当大以后就容易找到根源了)再以后又有了形形色色作弊方式我们就不在这里赘述了

  几年前我加入Google做件事就是消除网络作弊在Google最早发现搜索引擎作弊是Matt Cutts他在我加入Google前几个月开始研究这个问题后来辛格马丁和我先后加入进来我们经过几个月努力清除了作弊者(当然以后抓作弊效率就不会有这么高了)其中部分网站WebSite从此"痛改前非"但是还是有很多网站WebSite换种作弊思路方法继续作弊因此抓作弊成了种长期猫捉老鼠游戏虽然至今还没有劳永逸地解决作弊问题思路方法但是Google基本做到了对于任何已知作弊思路方法定时间内发现并清除它从而总是将作弊网站WebSite数量控制在个很小比例范围

  抓作弊思路方法很像信号处理中去噪音办法学过信息论和有信号处理经验读者可能知道这么个事实我们如果在发动机很吵汽车里用手机打电话对方可能听不清;但是如果我们知道了汽车发动机频率我们可以加上个和发动机噪音相反信号很容易地消除发动机噪音这样收话人可以完全听不到汽车噪音事实上现在些高端手机已经有了这种检测和消除噪音功能消除噪音流程可以概括如下:



  在图中原始信号混入了噪音在数学上相当于两个信号做卷积噪音消除过程是个解卷积过程这在信号处理中并不是什么难题汽车发动机频率是固定第 2这个频率噪音重复出现只要采集几秒钟信号进行处理就能做到从广义上讲只要噪音不是完全随机、并且前后有相关性就可以检测到并且消除(事实上完全随机不相关高斯白噪音是很难消除)

  搜索引擎作弊者所作就如同在手机信号中加入了噪音使得搜索结果排名完全乱了但是这种人为加入噪音并不难消除作弊者思路方法不可能是随机(否则就无法提高排名了)而且作弊者也不可能是天换种思路方法即作弊思路方法是时间相关因此搞搜索引擎排名算法可以在搜集段时间作弊信息后将作弊者抓出来还原原有排名当然这个过程需要时间就如同采集汽车发动机噪音需要时间在这段时间内作弊者可能会尝到些甜头因此有些人看到自己网站WebSite经过所谓优化(其实是作弊)排名在短期内靠前了以为这种所谓优化是有效但是不久就会发现排名掉下去了很多这倒不是搜索引擎以前宽容现在严厉了而是介绍说明抓作弊需要时间以前只是还没有检测到这些作弊网站WebSite而已

  还要强调Google抓作弊和恢复网站WebSite原有排名过程完全是自动(并没有个人好恶)就如同手机消除噪音是自动个网站WebSite要想长期排名靠前就需要把内容做好同时要和那些作弊网站WebSite划清界限

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: