Rss订阅

首页 »编程综合 » 矩阵运算:数学的美系列十 8:矩阵运算和文本处理中的分类问题 »正文

矩阵运算:数学的美系列十 8:矩阵运算和文本处理中的分类问题

来源: 发布时间:星期一, 2010年1月25日浏览:0次评论:0

　　我在大学学习线性代数时

实在想不出它除了告诉我们如何解线性方程外

还能有什么别

用途

有关矩阵

许多概念

比如特征值等等

更是脱离日常生活

后来在数值分析中又学了很多矩阵

近似算法

还是看不到可以应用

地方

当时选这些课

完全是为了混学分

学位

我想

很多同学都多多少少有过类似

经历

直到后来长期做自然语言处理

研究

我才发现数学家们提出那些矩阵

概念和算法

是有实际应用

意义

　　在自然语言处理中

最常见

两类

分类问题分别是

将文本按主题归类(比如将所有介绍亚运会

新闻归到体育类)和将词汇表中

字词按意思归类(比如将各种体育运动

名称个归成

类)

这两种分类问题都可用通过矩阵运算来圆满地、同时解决

为了介绍说明如何用矩阵这个工具类解决这两个问题

让我们先来来回顾

下我们在余弦定理和新闻分类中介绍

思路方法

　　分类

关键是计算相关性

我们首先对两个文本计算出它们

内容词

或者说实词

向量

然后求这两个向量

夹角

当这两个向量夹角为零时

新闻就相关；当它们垂直或者说正交时

新闻则无关

当然

夹角

余弦等同于向量

内积

从理论上讲

这种算法非常好

但是计算时间特别长

通常

我们要处理

文章

数量都很大

至少在百万篇以上

2次回标有非常长

比如说有 5十万个词(包括人名地名产品名称等等)

如果想通过对

百万篇文章两篇两篇地成对比较

来找出所有共同主题

文章

就要比较 5千亿对文章

现在

计算机

秒钟最多可以比较

千对文章

完成这

百万篇文章相关性比较就需要十 5年时间

注意

要真正完成文章

分类还要反复重复上述计算

　　在文本分类中

另

种办法是利用矩阵运算中

奇异值分解(Singular Value Decomposition

简称 SVD)

现在让我们来看看奇异值分解是如何回事

首先

我们可以用

个大矩阵A来描述这

百万篇文章和 5十万词

关联性

这个矩阵中

每

行对应

篇文章

每

列对应

个词

　　在上面

图中

M=1,000,000

N=500,000

第 i 行

第 j 列

元素

是字典中第 j 个词在第 i 篇文章中出现

加权词频(比如

TF/IDF)

读者可能已经注意到了

这个矩阵非常大

有

百万乘以 5十万

即 5千亿个元素

　　奇异值分解就是把上面这样

个大矩阵

分解成 3个小矩阵相乘

如下图所示

比如把上面

例子中

矩阵分解成

个

百万乘以

百

矩阵X

个

百乘以

百

矩阵B

和

个

百乘以 5十万

矩阵Y

这 3个矩阵

元素总数加起来也不过1.5亿

仅仅是原来

3千分的

相应

存储量和计算量都会小 3个数量级以上

　　 3个矩阵有非常清楚

物理含义

第

个矩阵X中

每

行表示意思相关

类词

其中

每个非零元素表示这类词中每个词

重要性(或者说相关性)

数值越大越相关

最后

个矩阵Y中

每

列表示同

主题

类文章

其中每个元素表示这类文章中每篇文章

专注于互联网--专注于架构

首页 »编程综合 » 矩阵运算:数学的美系列十 8:矩阵运算和文本处理中的分类问题 »正文

矩阵运算:数学的美系列十 8:矩阵运算和文本处理中的分类问题

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章