数学之美系列二:数学的美系列 2十:自然语言处理的教父 马库斯

我们在前面系列中介绍和提到了些年轻有为科学家迈克尔·柯林斯艾里克·布莱尔大卫·雅让斯基拉纳帕提等等他们都出自宾夕法尼亚计算机系米奇·马库斯(Mitch Marcus)名下就像许多武侠小说中描写弟子都成了各派掌门师傅定了不得确马库斯虽然作为第作者发表论文并不多但是从很多角度上讲他可以说是自然语言处理领域教父  马库斯教授长期当任宾夕法尼亚大学计... [阅读全文]

马尔可夫链的应用:数学的美系列十 9:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

我们在前面系列中多次提到马尔可夫链 (Markov Chain)它描述了种状态序列其每个状态值取决于前面有限个状态这种模型对很多实际问题来讲是种很粗略简化在现实生活中很多事物相互关系并不能用条链来串起来它们的间关系可能是交叉、错综复杂比如在下图中可以看到心血管疾病和它成因的间关系是错综复杂显然无法用个链来表示  我们可以把上述有向图看成个网络它就是贝叶斯网络其中每个圆圈表示个状态状态的间连线表示它... [阅读全文]

矩阵运算:数学的美系列十 8:矩阵运算和文本处理中的分类问题

我在大学学习线性代数时实在想不出它除了告诉我们如何解线性方程外还能有什么别用途有关矩阵许多概念比如特征值等等更是脱离日常生活后来在数值分析中又学了很多矩阵近似算法还是看不到可以应用地方当时选这些课完全是为了混学分学位我想很多同学都多多少少有过类似经历直到后来长期做自然语言处理研究我才发现数学家们提出那些矩阵概念和算法是有实际应用意义  在自然语言处理中最常见两类分类问题分别是将文本按主题归类(比如... [阅读全文]

搜索引擎作弊:数学的美系列十 7:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

自从有了搜索引擎就有了针对搜索引擎网页排名作弊(SPAM)以至于用户发现在搜索引擎中排名靠前网页不定就是高质量用句俗话说闪光不定是金子  搜索引擎作弊虽然思路方法很多目只有个就是采用不正当手段提高自己网页排名早期最常见作弊思路方法是重复关键词比如个卖数码相机网站WebSite重复地罗列各种数码相机品牌如尼康、佳能和柯达等等为了不让读者看到众多讨厌关键词聪明点作弊者常用很小字体和和背景相同颜色来掩盖... [阅读全文]

最大熵模型:数学的美系列十 6:不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

[我们在投资时常常讲不要把所有鸡蛋放在个篮子里这样可以降低风险在信息处理中这个原理同样适用在数学上这个原理称为最大熵原理(the maximum entropy principle)这是个非常有意思题目但是把它讲清楚要用两个系列篇幅]  前段时间Google 中国研究院刘骏总监谈到在网络搜索排名中用到信息有上百种更普遍地讲在自然语言处理中我们常常知道各种各样但是又不完全确定信息我们需要用个统模型将... [阅读全文]

数学之美系列十:数学的美系列十 5:繁和简 自然语言处理的几位精英

我在数学的美系列中直强调个好思路方法就是简单但是事实上自然语言处理中也有些特例比如有些学者将个问题研究到极致执著追求完善甚至可以说完美程度他们工作对同行有很大参考价值因此我们在科研中很需要这样学者在自然语言处理方面新代顶级人物麦克尔 · 柯林斯 (Michael Collins) 就是这样人  柯林斯:追求完美   柯林斯从师于自然语言处理大师马库斯 (Mitch Marcus)(我... [阅读全文]

数学之美系列十:数学的美系列十 4:谈谈数学模型的重要性

1. 个正确数学模型应当在形式上是简单.  2. 个正确模型在它开始时候可能还不如个精雕细琢过模型来准确,但是,如果我们认定大方向是对,就应该坚持下去.  3. 大量准确数据对研发很重要.  4. 正确模型也可能受噪音干扰,而显得不准确   [注:直关注数学的美系列读者可能已经发现,我们对任何问题总是在找相应准确数学模型.为了介绍说明模型重要性,今年 7月份我在 Google 中国内部讲课时用了整... [阅读全文]

数学之美系列十:数学的美系列十 3:信息指纹及其应用

任何段信息文字都可以对应个不太长随机数作为区别它和其它信息指纹(Fingerpr)只要算法设计好任何两段信息指纹都很难重复就如同人类指纹样信息指纹在加密、信息压缩和处理中有着广泛应用  我们在图论和网络爬虫文中提到为了防止重复下载同个网页我们需要在哈希表中纪录已经访问过网址(URL)但是在哈希表中以串形式直接存储网址既费内存空间又浪费查找时间现在网址般都较长比如如果在 Google 或者百度在查找... [阅读全文]

余弦定理和新闻的分类:数学的美系列十 2:余弦定理和新闻的分类

余弦定理和新闻分类似乎是两件 8杆子打不着事但是它们确有紧密联系具体说新闻分类很大程度上依靠余弦定理  Google 新闻是自动分类和整理所谓新闻分类无非是要把相似新闻放到类中计算机其实读不懂新闻它只能快速计算这就要求我们设计个算法来算出任意两篇新闻相似性为了做到这点我们需要想办法用组数字来描述篇新闻  我们来看看怎样找组数字或者说个向量来描述篇新闻回忆下我们在“如何度量网页相关性&r... [阅读全文]

websphereportal:为 WebSphere Portal V6.1 配置安全性

引言  通过给 WebSphere Portal 配置用户注册表可以防止未经授权用户访问您WebSphere Portal Server在 WebSphere Portal V6.1 中支持多种类型用户注册表配置任意种均可达到防止未授权用户访问目本文将向您介绍在区别场景下如何为 WebSphere Portal V6.1 配置区别用户注册表(联合用户注册表单个孤立注册表)来满足此需求  我们知道W... [阅读全文]

filenetp8技术白皮书:FileNet P8 工作流生命周期管理和 Process Engine API 应用介绍

FileNet P8 BPM (Business Process Management) 是 IBM 在以内容和人员为中心流程建设方面明星产品尽管它有个自带流程管理器(Process Administrator)和流程跟踪器(Process Tracker)来监控和管理运行时流程但这两个应用比较适合于专业 IT 人员而且界面风格比较固定和单难以适应企业多变需求  概述  FileNet P8 是 ... [阅读全文]

websphereserver.xml:WebSphere Application Server V7 快速迁移指南

引言  本文旨在帮助您着手将 IBM WebSphere Application Server 5.1.x 版本或 6.x 版本迁移到 WebSphere Application Server 7.0 版本文简要概述了 WebSphere Application Server V7 迁移工具及其使用并综述了在从特定版本(单台服务器和托管计算单元)迁移时需要注意些特殊事项  本文档使用术语  在开始... [阅读全文]

最好的朋友:功能丰富的 Perl: Flickr 业务最好的朋友

Flickr 绝对是世界上最好图片共享网站WebSite可以在这里找到各式各样图片有可爱小狗、稍微有些没对准焦点日落还有婚礼蛋糕很难将其看作是业务中心但是本文将展示些途径可以通过 Perl 来将 Flickr 打造成个更加面向业务站点   Flickr 项常见业务应用直以来都是展示产品这对于销售实体产品公司来说非常棒特别是那些可以从视觉曝光获益公司这里没有必要对此进行深入探讨 — 数十... [阅读全文]

rational软件:使用 Rational 软件Software交付平台 V7 从模型生成代码及从代码生成模型 第 2 部分

IBM® Rational®软件Software交付平台(Software Delivery Platform)提供了个完全可定制基于 UML 2.1 可视化设计工具这些工具能够使开发过程中架构师、系统分析师、设计师以及其他人员清楚地了解文档和沟通过程流程以及设计 Rational Software Modeler、Rational s Developer以及 Rational S... [阅读全文]

rationaluml:使用 Rational 软件Software交付平台 V7 从模型生成代码及从代码生成模型 第 1 部分: 创建、构建、合并及设计 UML 2.1 模型

IBM® Rational® 软件Software交付平台(Rational® Software Delivery Platform)提供了个完全可定制基于 UML 2.1 可视化设计工具这些工具能够使开发过程中架构师系统分析师设计师以及其他人员清楚地了解文档和沟通过程流程以及设计Rational Software ModelerRational s Developer以及... [阅读全文]

正则表达式html:ASP超级链接和HTML函数正则表达式 修正版

过滤超级链接 er" _disibledevent=复制代码 代码如下:Function RegRemoveHref(HTMLstr) Set ra = New RegExp ra.IgnoreCase = True ra.Global = True ra.Pattern = "A[^]+(.+?)\/A" RegRemoveHref = ra.replace(HTMLstr,"$1") END... [阅读全文]

php正则表达式提取:php 正则表达式提取网页超级链接url的函数

er" _disibledevent=复制代码 代码如下:function match_links($document) { preg_match_all("'\s*a\s.*?href\s*=\s*([\"\'])?(?(1)(.*?)\\1|([^\s\]+))[^]*?(.*?)/a'isx",$document,$links); while(list($key,$val) = each(... [阅读全文]

实现 Enterprise 2.0:使用协作工具和服务协调社交网络和社区

什么是 Enterprise 2.0?  Enterprise 2.0 是指在企业范围内使用支持 Web 2.0 技术工具和服务比如标签、评级、网络、RSS 和共享“Enterprise 2.0” 词最早由哈佛商学院 Andrew McAfee 在 2006 年春季号 Sloan Management Review 篇文章中提出他用 Enterprise 2.0 表示在企业... [阅读全文]

使用 Rational Team Concert 实现企业案例协同开发设置和迭代计划

开始的前  内容介绍  本教程简单介绍了个企业应用案例 Tanggula,并介绍了采用协同应用生命周期管理 Rational Team Concert去配置和完成协同开发基础以实现应用案例基本要求:  设置和创建项目、团队(Team)和过程  计划个迭代(包括了迭代计划和工作项目创建)  系统要求  本教程假定已经安装了 Rational Team Concert V1.0 标准版并有个管理员帐号... [阅读全文]

在业务中利用 Web 2.0

虽然 Web 2.0 已经有众多用户但有些企业在采纳 Web 2.0 方面却走得太慢不过很多公司现在也意识到 Web 2.0 巨大潜力并且清楚 YouTube、Twitter 和 SlideShare 等 Web 2.0 服务如何为他们组织提供价值看看企业如何利用 Web 2.0 服务威力同时改善工作场所人际关系让雇员共享有助于产生潜在客户、有助于招聘和强化公司品牌、形象和企业标志信息探索些面向企... [阅读全文]

RGB/Green.org Sustainability Challenge

有机社交网络 是个在特定地理位置社区中自然增长网络有些地理上分散社交网络(比如 Facebook)用户能感觉到 “彼此关联”但是缺少有意义关系有机社交网络起源于本地关系所以它们可以提供有意义且数量众多支持支持这种本地关系网站WebSite会对本地社区产生重大影响   Sustainability Challenge  历史  部分 Green.org 共享并支持非赢利性教育... [阅读全文]

自动关闭网络中的空闲计算机

“绿色” 技术最近动向主要集中在口头上而很少对典型家庭办公环境或小型办公环境采取行动许多用户由于偷懒或不小心而使系统保持连续在线因而导致消耗大量电力资源并且为恶意传播提供了更多可能性本文提供工具和代码允许您查找非活动系统并安全地关闭它们通过使用 Argus 和些自定义 Perl 代码监视网络连接 Linux® box任何个支持 Perl 系统都可以设置为在满足主要非... [阅读全文]

WebSphere CloudBurst Appliance 中的 特殊原料

揭示神秘成分   6月IBM 提供了两个流新产品:IBM WebSphere CloudBurst™ Appliance 和 IBM WebSphere Application Server Hypervisor Edition由于我们几个参和这个产品研发人经常听到 “两块牛肉饼加特殊原料......” 这样外卖订餐电话因此在 WebSphere Hypervi... [阅读全文]

javascript 基于正则表达式的文本框验证代码

1不能为空 input type="text" _disibledevent=2只能输入英文和数字input _disibledevent=input _disibledevent=input type="text" _disibledevent=3判断由字母和数字下划线,点号组成.且开头只能是下划线和字母 /^([a-zA-z_]{1})([\w]*)$/g.test(str)4只能输入数字i... [阅读全文]

正则表达式汉字:一个替换目录结构的正则表达式 实现目录的增加

需要解决如下操作:有多个shtml文件里面有连接地址 http://www.jb51.net/fgdf/222/1234.shtml http://www.jb51.net/tyty/333/456456.shtml http://www.jb51.net/tyry/789/fsdfsfs.shtml 现在我我想把这些.shtml文件连接地址前面加个目录名 inc 就是变成 http://www.... [阅读全文]

gitgit:Git教程( 7) Git差异比对

在‘git日志’课中我们通过'git log -p'命令来显示每次提交和其父节点提交内容的间快照差异这节课介绍'df'命令会实现类似功能---用种统格式来显示两个快照或文件的间差异这节课就向你展示如何使用df命令  查看变更还未载入(changed but unstaged)文件比对  最常见种情况是使用'git df'查看工作目录中某个还未载入(stage)文件差异  实... [阅读全文]

gitgit日志:Git教程( 6)Git日志

'git log'是git中最常用个命令执行的后会显示该项目提交历史如果命令不加任何参数那么就会显示目前所在分枝上从最后次提交开始按时间顺序依次向前排列所有提交历史记录$ git logcommit 166ae0c4d3f420721acbb115cc33848dfcc2121aAuthor: Scott Chacon [email protected]:   Sun Feb 8 16:5... [阅读全文]

Git教程( 5):Git标签

跟大多数VCS工具样git也有在历史状态关键点“贴标签”功能--般人们用这个功能来标记发布点(例如'v1.0')这节课我们学习如何使用标签列表创建新标签以及在git中有哪些区别类别标签  列出git中现有标签  要想列出git中现有所有标签输入'git tag'命令运行即可:$ git tagv0.1v1.3  这个列表是按照字母表顺序给出其实排名先后跟重要程度没有直接联系... [阅读全文]

Git教程( 4):分枝和合并

从第课介绍中我们了解到git处理分枝和合并是非常独到首先无论是创建新分枝还是分枝的间切换都表现出个共同特征--快! git 有个独立工作目录专门用来存放所有分枝内容所以你没必要为每个分枝再分别创建目录  这节我们任务是:  1. 创建个新分枝;  2.在这个分枝上做些工作;  3.切换回稳定主分枝(般git默认主分枝名叫master);  4.在主分枝上再做点工作;  5.再切换到刚那个临时分枝完... [阅读全文]

Git教程( 3):Git工作流程

现在你已经有个git本地仓库切都配置完毕然后该如何办?  般来说跟其他源码控制系统工作流程没什么两样唯个区别就是载入(stage)过程整个工作流程大致是这样(流程1):  和远程仓库同步   修改文件  查看变更  载入变更  提交载入变更  重复   上传  这是最复杂情况如果你不和别人合作开发话就不需要上传到仓库中去(流程2):  * 修改文件  * 提交变更  * 重复  简单吧要记得git... [阅读全文]
< 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 > >> 共1605条 分54页