今天各种汉字输入法已经很成熟了随便挑出种主要输入法比十几年前最好输入法都要快、要准现在抛开具体输入法从理论上分析下输入汉字到底能有多快
我们假定常用汉字在 2级国标里面共有 6700 个作用汉字如果不考虑汉字频率分布用键盘上 26 个字母对汉字编码两个字母组合只能对 676 个汉字编码对 6700 个汉字编码需要用 3个字母组合即编码长度为 3当然聪明读者马上发现了我们可以对常见字用较短编码对不常见字用较长编码这样平均起来每个汉字编码长度可以缩短我们假定每个汉字频率是
p1, p2, p3, ..., p6700
它们编码长度是
[阅读全文] [PDF]
Google、T-Mobile 和 HTC 宣布了第款基于开源操作系统 Android 3G 手机其中个重要功能是利用全球卫星定位系统实现全球导航这个功能在其它手机中早已使用并且早在 5 6年前就已经有实现这功能车载设备出售其中关键技术只有两个:第是利用卫星定位;第 2根据用户输入起终点在地图上规划最短路线或者最快路线后者关键算法是计算机科学图论中动态规划(Dynamic Programming)算法
在图论(请见拙著图论和网络爬虫)中个抽象图包括些节点和连接他们弧比如说中国公路网就是个很好“图”例子:每个城市是 [阅读全文] [PDF]
自从有了搜索引擎就有了针对搜索引擎网页排名作弊(SPAM)以至于用户发现在搜索引擎中排名靠前网页不定就是高质量用句俗话说闪光不定是金子
搜索引擎作弊虽然思路方法很多目只有个就是采用不正当手段提高自己网页排名早期最常见作弊思路方法是重复关键词比如个卖数码相机网站WebSite重复地罗列各种数码相机品牌如尼康、佳能和柯达等等为了不让读者看到众多讨厌关键词聪明点作弊者常用很小字体和和背景相同颜色来掩盖这些关键词其实这种做法很容易被搜索引擎发现并纠正
在有了网页排名(page rank)以后作弊者发现个网页被引用连接越多排名就可能越靠前于是就有 [阅读全文] [PDF]
[我们在投资时常常讲不要把所有鸡蛋放在个篮子里这样可以降低风险在信息处理中这个原理同样适用在数学上这个原理称为最大熵原理(the maximum entropy principle)这是个非常有意思题目但是把它讲清楚要用两个系列篇幅]
前段时间Google 中国研究院刘骏总监谈到在网络搜索排名中用到信息有上百种更普遍地讲在自然语言处理中我们常常知道各种各样但是又不完全确定信息我们需要用个统模型将这些信息综合起来如何综合得好是门很大学问
让我们看个拼音转汉字简单例子假如输入拼音是"wang-xiao-bo"利用语言模型根据有限上下文(比如 [阅读全文] [PDF]
我在数学的美系列中直强调个好思路方法就是简单但是事实上自然语言处理中也有些特例比如有些学者将个问题研究到极致执著追求完善甚至可以说完美程度他们工作对同行有很大参考价值因此我们在科研中很需要这样学者在自然语言处理方面新代顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样人
柯林斯:追求完美
柯林斯从师于自然语言处理大师马库斯 (Mitch Marcus)(我们以后还会多次提到马库斯)从宾夕法利亚大学获得博士学位现任麻省理工学院 (MIT) 副教授(别看他是副教授他水平在当今自然语言处理领域是数数 2) [阅读全文] [PDF]
1. 个正确数学模型应当在形式上是简单.
2. 个正确模型在它开始时候可能还不如个精雕细琢过模型来准确,但是,如果我们认定大方向是对,就应该坚持下去.
3. 大量准确数据对研发很重要.
4. 正确模型也可能受噪音干扰,而显得不准确
[注:直关注数学的美系列读者可能已经发现,我们对任何问题总是在找相应准确数学模型.为了介绍说明模型重要性,今年 7月份我在 Google 中国内部讲课时用了整整堂课来讲这个问题,下面内容是我讲座摘要.]
在包括哥白尼、伽利略和牛顿在内所有天文学家中,我最佩服是地心说提出者托勒密.虽然天文学 [阅读全文] [PDF]
任何段信息文字都可以对应个不太长随机数作为区别它和其它信息指纹(Fingerpr)只要算法设计好任何两段信息指纹都很难重复就如同人类指纹样信息指纹在加密、信息压缩和处理中有着广泛应用
我们在图论和网络爬虫文中提到为了防止重复下载同个网页我们需要在哈希表中纪录已经访问过网址(URL)但是在哈希表中以串形式直接存储网址既费内存空间又浪费查找时间现在网址般都较长比如如果在 Google 或者百度在查找数学的美对应网址长度在百个以上下面是百度链接
http://www.baidu.com/s?ie=gb2312&bs=%CA%FD%D1 [阅读全文] [PDF]
1 共7条 分1页
- server.createobject:本地安装测试IIS出现Server.CreateObject失败解决思路方法
- sql注入:阻止恶意SQL注入
- 瑞星安全助手:瑞星安全专家详细解析DNS攻击真相
- windows服务器安全:Windows服务器安全维护注意 8要点
- iisweb服务器:IIS Web服务器容易忽视的 6大基本安全问题
- 木马的防范:防范ASP木马的十大基本原则
- 中国的应对措施:百度对域名故障的应对措施
- discuz管理员密码:提权技术研究:Discuz!管理员复制
- photoshop文字教程:photoshop教程:木头文字效果的制作
- 微软office最新版本:微软证实Office 2010最新系统需求
- 微软office2007下载:微软Office 2010新形象和界面赏析
- [SharePoint2010]在Ribbon中添加自定义按钮
- 远程控制安全:安全知识 如何预防IT远程控制威胁
- 环境保护数据:安全为王 4建议助力中小企业保护数据
- windows2008防火墙:Windows 2008的高级安全防火墙功能
- windows2008防火墙:Windows 2008的高级安全防火墙功能
- 平衡的艺术:安全的道:一门平衡的艺术
- 硬件防火墙评测:阿尔叙硬件防火墙评测
- linux服务器维护:Linux服务器维护的 4大法宝
- illustrator教程:Illustrator教程:制作漂亮的新货吊牌