专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅

首页 »编程综合 » 余弦定理和新闻的分类:数学的美系列十 2:余弦定理和新闻的分类 »正文

余弦定理和新闻的分类:数学的美系列十 2:余弦定理和新闻的分类

来源: 发布时间:星期一, 2010年1月25日 浏览:0次 评论:0
  余弦定理和新闻分类似乎是两件 8杆子打不着但是它们确有紧密联系具体说新闻分类很大程度上依靠余弦定理

  Google 新闻是自动分类和整理所谓新闻分类无非是要把相似新闻放到类中计算机其实读不懂新闻它只能快速计算这就要求我们设计个算法来算出任意两篇新闻相似性为了做到这我们需要想办法用组数字来描述篇新闻

  我们来看看怎样找组数字或者说个向量来描述篇新闻回忆下我们在“如何度量网页相关性” 文中介绍TF/IDF 概念对于篇新闻中所有实词我们可以计算出它们单文本词汇频率/逆文本频率值(TF/IDF)不难想象和新闻主题有关那些实词频率高TF/IDF 值很大我们按照这些实词在词汇表位置对它们 TF/IDF 值排序比如词汇表有 6万 4千个词分别为

单词编号 汉字词
------------------
1 阿
2 啊
3 阿斗
4 阿姨
...
789 服装
....
64000 做作


  在篇新闻中这 64,000 个词 TF/IDF 值分别为

单词编号 TF/IDF 值

1 0
2 0.0034
3 0
4 0.00052
5 0
...
789 0.034
...
64000 0.075


  如果单词表中某个次在新闻中没有出现对应值为零那么这 64,000 个数组成个64,000维向量我们就用这个向量来代表这篇新闻并成为新闻特征向量如果两篇新闻特征向量相近则对应新闻内容相似它们应当归在反的亦然

  学过向量代数人都知道向量实际上是多维空间中有方向线段如果两个向量方向即夹角接近零那么这两个向量就相近而要确定两个向量方向是否这就要用到余弦定理计算向量夹角了

  余弦定理对我们每个人都不陌生它描述了 3角形中任何个夹角和 3个边关系换句话说给定 3角形 3条边我们可以用余弦定理求出 3角形各个角角度假定 3角形 3条边为 a, b 和 c对应 3个角为 A, B 和 C那么角 A 余弦 --



  如果我们将 3角形两边 b 和 c 看成是两个向量那么上述公式等价于



  其中分母表示两个向量 b 和 c 长度分子表示两个向量内积个具体例子假如新闻 X 和新闻 Y 对应向量分别是

  x1,x2,...,x64000 和

  y1,y2,...,y64000,

  那么它们夹角余弦等于



  当两条新闻向量夹角余弦等于这两条新闻完全重复(用这个办法可以删除重复网页);当夹角余弦接近于两条新闻相似从而可以归成类;夹角余弦越小两条新闻越不相关



  我们在中学学习余弦定理时恐怕很难想象它可以用来对新闻进行分类在这里我们再次看到数学工具用途

0

相关文章

读者评论

发表评论

  • 昵称:
  • 内容: