Rss订阅

首页 »编程综合 » 最大熵模型:数学的美系列十 6:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 »正文

最大熵模型:数学的美系列十 6:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

来源: 发布时间:星期一, 2010年1月25日浏览:0次评论:0

　　[我们在投资时常常讲不要把所有

鸡蛋放在

个篮子里

这样可以降低风险

在信息处理中

这个原理同样适用

在数学上

这个原理称为最大熵原理(the maximum entropy principle)

这是

个非常有意思

题目

但是把它讲清楚要用两个系列

篇幅

]

　　前段时间

Google 中国研究院

刘骏总监谈到在网络搜索排名中

用到

信息有上百种

更普遍地讲

在自然语言处理中

我们常常知道各种各样

但是又不完全确定

信息

我们需要用

个统

模型将这些信息综合起来

如何综合得好

是

门很大

学问

　　让我们看

个拼音转汉字

简单

例子

假如输入

拼音是"wang-xiao-bo"

利用语言模型

根据有限

上下文(比如前两个词)

我们能给出两个最常见

名字“王小波”和“王晓波”

至于要唯

确定是哪个名字就难了

即使利用较长

上下文也做不到

当然

我们知道如果通篇文章是介绍文学

作家王小波

可能性就较大；而在讨论两岸关系时

台湾学者王晓波

可能性会较大

在上面

例子中

我们只需要综合两类区别

信息

即主题信息和上下文信息

虽然有不少凑合

办法

比如:分成成千上万种

区别

主题单独处理

或者对每种信息

作用加权平均等等

但都不能准确而圆满地解决问题

这样好比以前我们谈到

行星运动模型中

小圆套大圆打补丁

思路方法

在很多应用中

我们需要综合几十甚至上百种区别

信息

这种小圆套大圆

思路方法显然行不通

　　数学上最漂亮

办法是最大熵(maximum entropy)模型

它相当于行星运动

椭圆模型

“最大熵”这个名词听起来很深奥

但是它

原理很简单

我们每天都在用

说白了

就是要保留全部

不确定性

将风险降到最小

让我们来看

个实际例子

　　有

次

我去 AT&T 实验室作有关最大熵模型

报告

我带去了

个色子

我问听众“每个面朝上

概率分别是多少”

所有人都说是等概率

即各点

概率均为1/6

这种猜测当然是对

我问听众们为什么

得到

回答是

致

:对这个“

无所知”

色子

假定它每

个朝上概率均等是最安全

做法

(你不应该主观假设它象韦小宝

色子

样灌了铅

)从投资

角度看

就是风险最小

做法

从信息论

角度讲

就是保留了最大

不确定性

也就是说让熵达到最大

接着

我又告诉听众

我

这个色子被我特殊处理过

已知 4点朝上

概率是 3分的

在这种情况下

每个面朝上

概率是多少？这次

大部分人认为除去 4点

概率是 1/3

其余

均是 2/15

也就是说已知

条件( 4点概率为 1/3)必须满足

而对其余各点

概率

仍然无从知道

因此只好认为它们均等

注意

在猜测这两种区别情况下

概率分布时

大家都没有添加任何主观

假设

诸如 4点

反面

定是 3点等等

(事实上

有

色子 4点反面不是 3点而是

点

)这种基于直觉

猜测的所以准确

是

它恰好符合了最大熵原理

　　最大熵原理指出

当我们需要对

个随机事件

概率分布进行预测时

我们

预测应当满足全部已知

条件

而对未知

情况不要做任何主观假设

(不做主观假设这点很重要

)在这种情况下

概率分布最均匀

预测

风险最小

这时概率分布

信息熵最大

所以人们称这种模型叫“最大熵模型”

我们常说

不要把所有

鸡蛋放在

个篮子里

其实就是最大熵原理

个朴素

说法

当我们遇到不确定性时

就要保留各种可能性

　　回到我们刚才谈到

拼音转汉字

例子

我们已知两种信息

第

根据语言模型

wang-xiao-bo 可以被转换成王晓波和王小波；第 2

根据主题

王小波是作家

黄金时代

作者等等

而王晓波是台湾研究两岸关系

学者

因此

我们就可以建立

个最大熵模型

同时满足这两种信息

现在

问题是

这样

个模型是否存在

匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明

对任何

组不自相矛盾

信息

这个最大熵模型不仅存在

而且是唯

而且它们都有同

个非常简单

形式 -- 指数

下面公式是根据上下文(前两个词)和主题预测下

个词

最大熵模型

其中 w3 是要预测

词(王晓波或者王小波)w1 和 w2 是它

前两个字(比如说它们分别是“出版”

和“”)

也就是其上下文

个大致估计

subject 表示主题

　　我们看到

在上面

公式中

有几个参数 lambda 和 Z

他们需要通过观测数据训练出来

　　最大熵模型在形式上是最漂亮

统计模型

而在实现上是最复杂

模型的

我们在将下

个系列中介绍如何训练最大熵模型

诸多参数

以及最大熵模型在自然语言处理和金融方面很多有趣

应用

　　数学的美系列十 6(下)－不要把所有

鸡蛋放在

个篮子里 -- 谈谈最大熵模型

　　上面用最大熵模型可以将各种信息综合在

起

我们留下

个问题没有回答

就是如何构造最大熵模型

我们已经所有

最大熵模型都是指数

形式

现在只需要确定指数

参数就可以了

这个过程称为模型

训练

　　最原始

最大熵模型

训练思路方法是

种称为通用迭代算法 GIS(generalized iterative scaling)

迭代算法

GIS

原理并不复杂

大致可以概括为以下几个步骤:

　　1. 假定第零次迭代

模型为等概率

均匀分布

　　2. 用第 N 次迭代

模型来估算每种信息特征在训练数据中

分布

如果超过了实际

就把相应

模型参数变小；否则

将它们便大

　　3. 重复步骤 2 直到收敛

　　GIS 最早是由 Darroch 和 Ratcl

f 在 7十年代提出

但是

这两人没有能对这种算法

物理含义进行很好地解释

后来是由数学家希萨(Csiszar)解释清楚

因此

人们在谈到这个算法时

总是同时引用 Darroch 和Ratcl

f 以及希萨

两篇论文

GIS 算法每次迭代

时间都很长

需要迭代很多次才能收敛

而且不太稳定

即使在 64 位计算机上都会出现溢出

因此

在实际应用中很少有人真正使用 GIS

大家只是通过它来了解最大熵模型

算法

　　 8十年代

很有天才

孪生兄弟

达拉皮垂(Della Pietra)在 IBM 对 GIS 算法进行了两方面

改进

提出了改进迭代算法 IIS(improved iterative scaling)

这使得最大熵模型

训练时间缩短了

到两个数量级

这样最大熵模型才有可能变得实用

即使如此

在当时也只有 IBM 有条件是用最大熵模型

　　由于最大熵模型在数学上十分完美

对科学家们有很大

诱惑力

因此不少研究者试图把自己

问题用

个类似最大熵

近似模型去套

谁知这

近似

最大熵模型就变得不完美了

结果可想而知

比打补丁

凑合

思路方法也好不了多少

于是

不少热心人又放弃了这种思路方法

第

个在实际信息处理应用中验证了最大熵模型

优势

是宾夕法尼亚大学马库斯

另

个高徒原 IBM 现微软

研究员拉纳帕提(Adwait Ratnaparkhi)

拉纳帕提

聪明的处在于他没有对最大熵模型进行近似

而是找到了几个最适合用最大熵模型、而计算量相对不太大

自然语言处理问题

比如词性标注和句法分析

拉纳帕提成功地将上下文信息、词性(名词、动词和形容词等)、句子成分(主谓宾)通过最大熵模型结合起来

做出了当时世界上最好

词性标识系统和句法分析器

拉纳帕提

论文发表后让人们耳目

新

拉纳帕提

词性标注系统

至今仍然是使用单

思路方法最好

系统

科学家们从拉纳帕提

成就中

又看到了用最大熵模型解决复杂

文字信息处理

希望

　　但是

最大熵模型

计算量仍然是个拦路虎

我在学校时花了很长时间考虑如何简化最大熵模型

计算量

终于有

天

我对我

导师说

我发现

种数学变换

可以将大部分最大熵模型

训练时间在 IIS

基础上减少两个数量级

我在黑板上推导了

个多小时

他没有找出我

推导中

任何破绽

接着他又回去想了两天

然后告诉我我

算法是对

从此

我们就建造了

些很大

最大熵模型

这些模型比修修补补

凑合

思路方法好不少

即使在我找到了快速训练算法以后

为了训练

个包含上下文信息

主题信息和语法信息

文法模型(language model)

我并行使用了 20 台当时最快

SUN 工作站

仍然计算了 3个月

由此可见最大熵模型

复杂

面

最大熵模型快速算法

实现很复杂

到今天为止

世界上能有效实现这些算法

人也不到

百人

　　最大熵模型

可以说是集简和繁于

体

形式简单

实现复杂

值得

提

是

在Google

很多产品中

比如机器翻译

都直接或间接地用到了最大熵模型

　　讲到这里

读者也许会问

当年最早改进最大熵模型算法

达拉皮垂兄弟这些年难道没有做任何事吗？他们在 9十年代初贾里尼克离开 IBM 后

也退出了学术界

而到在金融界大显身手

他们两人和很多 IBM 语音识别

同事

同到了

家当时还不大

但现在是世界上最成功对冲基金(hedge fund)公司----文艺复兴技术公司 (Renaissance Technologies)

我们知道

决定股票涨落

原因可能有几十甚至上百种

而最大熵思路方法恰恰能找到

个同时满足成千上万种区别条件

模型

达拉皮垂兄弟等科学家在那里

用于最大熵模型和其他

些先进

数学工具对股票预测

获得了巨大

成功

从该基金 1988 年创立至今

它

净回报率高达平均每年 34%

也就是说

如果 1988 年你在该基金投入

块钱

今天你能得到 200 块钱

这个业绩

远远超过股神巴菲特

旗舰公司伯克夏哈撒韦(Berkshire Hathaway)

同期

伯克夏哈撒韦

总回报是 16 倍

　　值得

提

是

信息处理

很多数学手段

包括隐含马尔可夫模型、子波变换、贝叶斯网络等等

在华尔街多有直接

应用

由此可见

数学模型

作用

专注于互联网--专注于架构

首页 »编程综合 » 最大熵模型:数学的美系列十 6:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型 »正文

最大熵模型:数学的美系列十 6:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章