字符串匹配算法:lucene笔记十一: 建索引优化复杂排序HitCollector 匹配算法疯狂代码！

　　1, 提高建索引

速度

　　/**

　　* 在IndexWriter中有

个MERGE_FACTOR参数可以帮助你在构造索引器后根据应用环境

情况充分利用内存减少文件

操作

根据我

使用经验:缺省Indexer是每20条记录索引后写入

次

每将MERGE_FACTOR增加50倍

索引速度可以提高1倍左右

　　*/

　　indexWriter.

MergeFactor(1000);

　　2, 排序

　　« 从汉化到国际化 | (回到Blog入口)|(回到首页) | Resin学习笔记 »

　　Lucene:基于Java

全文检索引擎介绍

　　作者:车东发表于:2002-08-06 18:08 最后更新于:2007-04-12 11:04

　　版权声明:可以任意转载

转载时请务必以超链接形式标明文章原始出处和作者信息及本声明

　　http://www.chedong.com/tech/lucene.html

　　--------------------------------------------------------------------------------

　　Lucene是

个基于Java

全文索引工具包

　　基于Java

全文索引引擎Lucene介绍:有关作者和Lucene

历史

　　全文检索

实现:Luene全文索引和数据库索引

比较

　　中文切分词机制介绍:基于词库和自动切分词算法

比较

　　具体

安装和使用介绍:系统结构介绍和演示

　　Hacking Lucene:简化

查询分析器

删除

实现

定制

排序

应用接口

扩展

　　从Lucene我们还可以学到什么

　　基于Java

全文索引/检索引擎——Lucene

　　Lucene不是

个完整

全文索引应用

而是是

个用Java写

全文索引引擎工具包

它可以方便

嵌入到各种应用中实现针对应用

全文索引/检索功能

　　Lucene

作者:Lucene

贡献者Doug Cutting是

位资深全文索引/检索专家

曾经是V-Twin搜索引擎(Apple

Copland操作系统

成就的

)

主要开发者

后在Excite担任高级系统架构设计师

目前从事于

些INTERNET底层架构

研究

他贡献出

Lucene

目标是为各种中小型应用

加入全文检索功能

　　Lucene

发展历程:早先发布在作者自己

www.lucene.com

后来发布在SourceForge

2001年年底成为APACHE基金会jakarta

个子项目:http://jakarta.apache.org/lucene/

　　已经有很多Java项目都使用了Lucene作为其后台

全文索引引擎

比较著名

有:

　　Jive:WEB论坛系统；

　　Eyebrows:邮件列表HTML归档/浏览/查询系统

本文

主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统

主要开发者的

而EyeBrows已经成为目前APACHE项目

主要邮件列表归档系统

　　Cocoon:基于XML

web发布框架

全文检索部分使用了Lucene

　　Eclipse:基于Java

开放开发平台

帮助部分

全文索引使用了Lucene

　　对于中文用户来说

最关心

问题是其是否支持中文

全文检索

但通过后面对于Lucene

结构

介绍

你会了解到由于Lucene良好架构设计

对中文

支持只需对其语言词法分析接口进行扩展就能实现对中文检索

支持

　　全文检索

实现机制

　　Lucene

API接口设计

比较通用

输入输出结构都很像数据库

表

>记录

>字段

所以很多传统

应用

文件、数据库等都可以比较方便

映射到Lucene

存储结构/接口中

总体上看:可以先把Lucene当成

个支持全文索引

数据库系统

　　比较

下Lucene和数据库:

　　Lucene 数据库

　　索引数据源:doc(field1,field2...) doc(field1,field2...) indexer / _____________ | Lucene Index| -------------- / searcher 结果输出:Hits(doc(field1,field2) doc(field1...)) 索引数据源:record(field1,field2...) record(field1..) SQL: insert/ _____________ | DB Index | ------------- / SQL: select 结果输出:results(record(field1,field2..) record(field1...))

　　Document:

个需要进行索引

“单元”

　　

个Document由多个字段组成 Record:记录

包含多个字段

　　Field:字段 Field:字段

　　Hits:查询结果集

由匹配

Document组成 RecordSet:查询结果集

由多个Record组成

　　全文检索 ≠ like "%keyword%"

　　通常比较厚

书籍后面常常附关键词索引表(比如:北京:12, 34页

上海:3,77页……)

它能够帮助读者比较快地找到相关内容

页码

而数据库索引能够大大提高查询

速度原理也是

样

想像

下通过书后面

索引查找

速度要比

页

页地翻内容高多少倍……而索引的所以效率高

另外

个原因是它是排好序

对于检索系统来说核心是

个排序问题

　　由于数据库索引不是为全文索引设计

因此

使用like "%keyword%"时

数据库索引是不起作用

在使用like查询时

搜索过程又变成类似于

页页翻书

遍历过程了

所以对于含有模糊查询

数据库服务来说

LIKE对性能

危害是极大

如果是需要对多个关键词进行模糊匹配:like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了

　　所以建立

个高效检索系统

关键是建立

个类似于科技索引

样

反向索引机制

将数据源(比如多篇文章)排序顺序存储

同时

有另外

个排好序

关键词列表

用于存储关键词

>文章映射关系

利用这样

映射关系索引:[关键词

>出现关键词

文章编号

出现次数(甚至包括位置:起始偏移量

结束偏移量)

出现频率]

检索过程就是把模糊查询变成多个可以利用索引

精确查询

逻辑组合

过程

从而大大提高了多关键词查询

效率

所以

全文检索问题归结到最后是

个排序问题

　　由此可以看出模糊查询相对数据库

精确查询是

个非常不确定

问题

这也是大部分数据库对全文检索支持有限

原因

Lucene最核心

特征是通过特殊

索引结构实现了传统数据库不擅长

全文索引机制

并提供了扩展接口

以方便针对区别应用

定制

　　可以通过

下表格对比

下数据库

模糊查询:

　　Lucene全文索引引擎数据库

　　索引将数据源中

数据都通过全文索引

建立反向索引对于LIKE查询来说

数据传统

索引是根本用不上

数据需要逐个便利记录进行GREP式

模糊匹配

比有索引

搜索速度要有多个数量级

下降

　　匹配效果通过词元(term)进行匹配

通过语言分析接口

实现

可以实现对中文等非英语

支持

使用:like "%net%" 会把netherlands也匹配出来

　　多个关键词

模糊匹配:使用like "%com%net%":就不能匹配词序颠倒

xxx.net..xxx.com

　　匹配度有匹配度算法

将匹配程度(相似度)比较高

结果排在前面

没有匹配程度

控制:比如有记录中net出现5词和出现1次

结果是

样

　　结果输出通过特别

算法

将最匹配度最高

头100条结果输出

结果集是缓冲式

小批量读取

返回所有

结果集

在匹配条目非常多

时候(比如上万条)需要大量

内存存放这些临时结果集

　　可定制性通过区别

语言分析接口实现

可以方便

定制出符合应用需要

索引规则(包括对中文

支持) 没有接口或接口复杂

无法定制

　　结论高负载

模糊查询应用

需要负责

模糊查询

规则

索引

资料量比较大使用率低

模糊匹配规则简单或者需要模糊查询

资料量少

　　全文检索和数据库应用最大

区别在于:让最相关

头100条结果满足98%以上用户

需求

　　Lucene

创新的处:

　　大部分

搜索(数据库)引擎都是用B树结构来维护索引

索引

更新会导致大量

IO操作

Lucene在实现中

对此稍微有所改进:不是维护

个索引文件

而是在扩展索引

时候不断创建新

索引文件

然后定期

把这些新

小索引文件合并到原先

大索引中(针对区别

更新策略

批次

大小可以调整)

这样在不影响检索

效率

前提下

提高了索引

效率

　　Lucene和其他

些全文检索系统/应用

比较:

　　Lucene 其他开源全文检索系统

　　增量索引和批量索引可以进行增量

索引(Append)

可以对于大量数据进行批量索引

并且接口设计用于优化批量索引和小批量

增量索引

很多系统只支持批量

索引

有时数据源有

点增加也需要重建索引

　　数据源 Lucene没有定义具体

数据源

而是

个文档

结构

因此可以非常灵活

适应各种应用(只要前端有合适

转换器把数据源转换成相应结构)

很多系统只针对网页

缺乏其他格式文档

灵活性

　　索引内容抓取 Lucene

文档是由多个字段组成

甚至可以控制那些字段需要进行索引

那些字段不需要索引

近

步索引

字段也分为需要分词和不需要分词

类型:

　　需要进行分词

索引

比如:标题

文章内容字段

　　不需要进行分词

索引

比如:作者/日期字段缺乏通用性

往往将文档整个索引了

　　语言分析通过语言分析器

区别扩展实现:

　　可以过滤掉不需要

词:an the of 等

　　西文语法分析:将jumps jumped jumper都归结成jump进行索引/检索

　　非英文支持:对亚洲语言

阿拉伯语言

索引支持缺乏通用接口实现

　　查询分析通过查询分析接口

实现

可以定制自己

查询语法规则:

　　比如: 多个关键词的间

+ - and or关系等　

　　并发访问能够支持多用户

使用　

　　有关亚洲语言

切分词问题(Word Segment)

　　对于中文来说

全文索引首先还要解决

个语言分析

问题

对于英文来说

语句中单词的间是天然通过空格分开

但亚洲语言

中日韩文语句中

字是

个字挨

个

所有

首先要把语句中按“词”进行索引

话

这个词如何切分出来就是

个很大

问题

　　首先

肯定不能用单个

作(si-gram)为索引单元

否则查“上海”时

不能让含有“海上”也匹配

　　但

句话:“北京天安门”

计算机如何按照中文

语言习惯进行切分呢？

　　“北京天安门” 还是“北京天安门”？让计算机能够按照语言习惯进行切分

往往需要机器有

个比较丰富

词库才能够比较准确

识别出语句中

单词

　　另外

个解决

办法是采用自动切分算法:将单词按照2元语法(bigram)方式切分出来

比如:

　　"北京天安门"

> "北京京天天安安门"

　　这样

在查询

时候

无论是查询"北京" 还是查询"天安门"

将查询词组按同样

规则进行切分:"北京"

"天安安门"

多个关键词的间按和"and"

关系组合

同样能够正确地映射到相应

索引中

这种方式对于其他亚洲语言:韩文

日文都是通用

　　基于自动切分

最大优点是没有词表维护成本

实现简单

缺点是索引效率低

但对于中小型应用来说

基于2元语法

切分还是够用

基于2元切分后

索引

般大小和源文件差不多

而对于英文

索引文件

般只有原文件

30%-40%区别

　　自动切分词表切分

　　实现实现非常简单实现复杂

　　查询增加了查询分析

复杂程度

适于实现比较复杂

查询语法规则

　　存储效率索引冗余大

索引几乎和原文

样大索引效率高

为原文大小

30％左右

　　维护成本无词表维护成本词表维护成本非常高:中日韩等语言需要分别维护

　　还需要包括词频统计等内容

　　适用领域嵌入式系统:运行环境资源有限

　　分布式系统:无词表同步问题

　　多语言环境:无词表维护成本对查询和存储效率要求高

专业搜索引擎

　　目前比较大

搜索引擎

语言分析算法

般是基于以上2个机制

结合

有关中文

语言分析算法

大家可以在Google查关键词"wordsegment search"能找到更多相关

资料

　　安装和使用

　　下载:http://jakarta.apache.org/lucene/

　　注意:Lucene中

些比较复杂

词法分析是用JavaCC生成

(JavaCC:JavaCompilerCompiler

纯Java

词法分析生成器)

所以如果从源代码编译或需要修改其中

QueryParser、定制自己

词法分析器

还需要从http://javacc.dev.java.net/下载javacc

　　lucene

组成结构:对于外部应用来说索引模块(index)和检索模块(search)是主要

外部应用入口

　　org.apache.Lucene.search/ 搜索入口

　　org.apache.Lucene.index/ 索引入口

　　org.apache.Lucene.analysis/ 语言分析器

　　org.apache.Lucene.queryParser/ 查询分析器

　　org.apache.Lucene.document/ 存储结构

　　org.apache.Lucene.store/ 底层IO/存储结构

　　org.apache.Lucene.util/

些公用

数据结构

　　简单

例子演示

下Lucene

使用思路方法:

　　索引过程:从命令行读取文件名(多个)

将文件分路径(path字段)和内容(body字段)2个字段进行存储

并对内容进行全文索引:索引

单位是Document对象

每个Document对象包含多个字段Field对象

针对区别

字段属性和数据输出

需求

对字段还可以选择区别

索引/存储字段规则

列表如下: 思路方法切词索引存储用途

　　Field.Text(String name, String value) Yes Yes Yes 切分词索引并存储

比如:标题

内容字段

　　Field.Text(String name, Reader value) Yes Yes No 切分词索引不存储

比如:META信息

　　不用于返回显示

但需要进行检索内容

　　Field.Keyword(String name, String value) No Yes Yes 不切分索引并存储

比如:日期字段

　　Field.UnIndexed(String name, String value) No No Yes 不索引

只存储

比如:文件路径

　　Field.UnStored(String name, String value) Yes Yes No 只全文索引

不存储

　　public

IndexFiles { //使用思路方法:: IndexFiles [索引输出目录] [索引

文件列表] ... public

void

(String

args) throws Exception { String indexPath = args[0]; IndexWriter writer; //用指定

语言分析器构造

个新

写索引器(第3个参数表示是否为追加索引) writer =

IndexWriter(indexPath,

SimpleAnalyzer

, false); for (

i=1; i<args.length; i

) {

.out.pr

ln("Indexing file " + args); InputStream is =

FileInputStream(args); //构造包含2个字段Field

Document对象 //

个是路径path字段

不索引

只存储 //

个是内容body字段

进行全文索引

并存储 Document doc =

Document

; doc.add(Field.UnIndexed("path", args)); doc.add(Field.Text("body", (Reader)

InputStreamReader(is))); //将文档写入索引 writer.addDocument(doc); is.close

; }; //关闭写索引器 writer.close

; }}　索引过程中可以看到:

　　语言分析器提供了抽象

接口

因此语言分析(Analyser)是可以定制

虽然lucene缺省提供了2个比较通用

分析器SimpleAnalyser和StandardAnalyser

这2个分析器缺省都不支持中文

所以要加入对中文语言

切分规则

需要修改这2个分析器

　　Lucene并没有规定数据源

格式

而只提供了

个通用

结构(Document对象)来接受索引

输入

因此输入

数据源可以是:数据库

WORD文档

PDF文档

HTML文档……只要能够设计相应

解析转换器将数据源构造成成Docuement对象即可进行索引

　　对于大批量

数据索引

还可以通过调整IndexerWrite

文件合并频率属性(mergeFactor)来提高批量索引

效率

　　检索过程和结果显示:

　　搜索结果返回

是Hits对象

可以通过它再访问Document

>Field中

内容

　　假设根据body字段进行全文检索

可以将查询结果

path字段和相应查询

匹配度(score)打印出来

　　public

Search { public

void

(String

args) throws Exception { String indexPath = args[0], queryString = args[1]; //指向索引目录

搜索器 Searcher searcher =

IndexSearcher(indexPath); //查询解析器:使用和索引同样

语言分析器 Query query = QueryParser.parse(queryString, "body",

SimpleAnalyzer

); //搜索结果使用Hits存储 Hits hits = searcher.search(query); //通过hits可以访问到相应字段

数据和查询

匹配度 for (

i=0; i<hits.length

; i

) {

.out.pr

ln(hits.doc(i).get("path") + "; Score: " + hits.score(i)); }; }}在整个检索过程中

语言分析器

查询分析器

甚至搜索器(Searcher)都是提供了抽象

接口

可以根据需要进行定制

　　Hacking Lucene

　　简化

查询分析器

　　个人感觉lucene成为JAKARTA项目后

画在了太多

时间用于调试日趋复杂QueryParser

而其中大部分是大多数用户并不很熟悉

目前LUCENE支持

语法:

　　Query ::= ( Clause )*

　　Clause ::= ["+", "-"] [<TERM> ":"] ( <TERM> | "(" Query ")")

　　中间

逻辑包括:and or + - &&||等符号

而且还有"短语查询"和针对西文

前缀/模糊查询等

个人感觉对于

般应用来说

这些功能有

些华而不实

其实能够实现目前类似于Google

查询语句分析功能其实对于大多数用户来说已经够了

所以

Lucene早期版本

QueryParser仍是比较好

选择

　　添加修改删除指定记录(Document)

　　Lucene提供了索引

扩展机制

因此索引

动态扩展应该是没有问题

而指定记录

修改也似乎只能通过记录

删除

然后重新加入实现

如何删除指定

记录呢？删除

思路方法也很简单

只是需要在索引时根据数据源中

记录ID专门另建索引

然后利用IndexReader.delete(Termterm)思路方法通过这个记录ID删除相应

Document

　　根据某个字段值

排序功能

　　lucene缺省是按照自己

相关度算法(score)进行结果排序

但能够根据其他字段进行结果排序是

个在LUCENE

开发邮件列表中经常提到

问题

很多原先基于数据库应用都需要除了基于匹配度(score)以外

排序功能

而从全文检索

原理我们可以了解到

任何不基于索引

搜索过程效率都会导致效率非常

低

如果基于其他字段

排序需要在搜索过程中访问存储字段

速度回大大降低

因此非常是不可取

　　但这里也有

个折中

解决思路方法:在搜索过程中能够影响排序结果

只有索引中已经存储

docID和score这2个参数

所以

基于score以外

排序

其实可以通过将数据源预先排好序

然后根据docID进行排序来实现

这样就避免了在LUCENE搜索结果外对结果再次进行排序和在搜索过程中访问不在索引中

某个字段值

Tags: 图像匹配算法模式匹配算法匹配算法字符串匹配算法

字符串匹配算法:lucene笔记十一: 建索引优化复杂排序HitCollector 匹配算法

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注

字符串匹配算法:lucene笔记十一: 建索引优化 复杂排序HitCollector 匹配算法

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注

字符串匹配算法:lucene笔记十一: 建索引优化复杂排序HitCollector 匹配算法