专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅
  今天各种汉字输入法已经很成熟了随便挑出种主要输入法比十几年前最好输入法都要快、要准现在抛开具体输入法从理论上分析下输入汉字到底能有多快   我们假定常用汉字在 2级国标里面共有 6700 个作用汉字如果不考虑汉字频率分布用键盘上 26 个字母对汉字编码两个字母组合只能对 676 个汉字编码对 6700 个汉字编码需要用 3个字母组合即编码长度为 3当然聪明读者马上发现了我们可以对常见字用较短编码对不常见字用较长编码这样平均起来每个汉字编码长度可以缩短我们假定每个汉字频率是   p1, p2, p3, ..., p6700   它们编码长度是 [阅读全文] [PDF]
  Google、T-Mobile 和 HTC 宣布了第款基于开源操作系统 Android 3G 手机其中个重要功能是利用全球卫星定位系统实现全球导航这个功能在其它手机中早已使用并且早在 5 6年前就已经有实现这功能车载设备出售其中关键技术只有两个:第是利用卫星定位;第 2根据用户输入起终点在地图上规划最短路线或者最快路线后者关键算法是计算机科学图论中动态规划(Dynamic Programming)算法   在图论(请见拙著图论和网络爬虫)中个抽象图包括些节点和连接他们弧比如说中国公路网就是个很好“图”例子:每个城市是 [阅读全文] [PDF]
  在日常生活中包括在设计计算机软件Software时我们经常要判断个元素是否在个集合中比如在字处理软件Software中需要检查个英语单词是否拼写正确(也就是要判断它是否在已知字典中);在 FBI个嫌疑人名字是否已经在嫌疑名单上;在网络爬虫里个网址是否被访问过等等最直接思路方法就是将集合中全部元素存在计算机中遇到个新元素时将它和集合中元素直接比较即可般来讲计算机中集合是用哈希表(hash table)来存储它好处是快速准确缺点是费存储空间当集合比较小时这个问题不显著但是当集合巨大时哈希表存储效率低问题就显现出来了比如说个象 Yahoo,Hotmail [阅读全文] [PDF]
  1. 个正确数学模型应当在形式上是简单.   2. 个正确模型在它开始时候可能还不如个精雕细琢过模型来准确,但是,如果我们认定大方向是对,就应该坚持下去.   3. 大量准确数据对研发很重要.   4. 正确模型也可能受噪音干扰,而显得不准确   [注:直关注数学的美系列读者可能已经发现,我们对任何问题总是在找相应准确数学模型.为了介绍说明模型重要性,今年 7月份我在 Google 中国内部讲课时用了整整堂课来讲这个问题,下面内容是我讲座摘要.]   在包括哥白尼、伽利略和牛顿在内所有天文学家中,我最佩服是地心说提出者托勒密.虽然天文学 [阅读全文] [PDF]
  任何段信息文字都可以对应个不太长随机数作为区别它和其它信息指纹(Fingerpr)只要算法设计好任何两段信息指纹都很难重复就如同人类指纹样信息指纹在加密、信息压缩和处理中有着广泛应用   我们在图论和网络爬虫文中提到为了防止重复下载同个网页我们需要在哈希表中纪录已经访问过网址(URL)但是在哈希表中以串形式直接存储网址既费内存空间又浪费查找时间现在网址般都较长比如如果在 Google 或者百度在查找数学的美对应网址长度在百个以上下面是百度链接   http://www.baidu.com/s?ie=gb2312&bs=%CA%FD%D1 [阅读全文] [PDF]
1 共5条 分1页