Rss订阅

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引(一) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引(一)

来源: 发布时间:星期四, 2009年1月15日浏览:45次评论:0

　　在说索引的前

先说说索引是什么？为什么要索引？如何索引？

　　先想想看

假如现在有

个文本

我们会如何去搜索

比如

有

个

= "abcdefghijklmnopqrstuvwxyz"

这都是26个字母

现在要看看里面是不是有a

用IndexOf就可以很方便实现

现在数据量大了

在数据库里已经有100多条数据了

当然

利用数据库提供

操作思路方法

也可以很方便

查找

而这里先抛开数据库

把这100多条记录放到N个文本文件中

现在要在里面搜索含有“Lucene”这个词

记录

那如何办呢？如果只简单地使用逐个文件逐字扫描

话

那和用Windows内置

搜索

张图片名

或者文本没什么分别

那么每次搜索都会需要大量时间

而google和baidu为什么能做到那么快呢？既然刚才我们是抛开数据库

是不是使用了数据库就能实现呢？从我长期使用

经验来看

数据库肯定是不行

(这里指关系型数据库

要是出某些专门为搜索做

数据库那就另外说了

)

什么东西在搜索

时候足够快呢?在C#类型里就有这么几个

比如Hashtable,Dictionary

做搜索引擎是否也可以应用这样

思想？显然是可以

！有很多东西在微观(这里指

小个算法或者

个小型

数据结构应用)和宏观(这里指框架级或者系统级)上名字不

样

但是都有很多

相似性和可比性

无疑Lucene.Net就是这样

个框架

实现了Hashtable更加宏观

现象！当然也是有很多差别

　　Lucene.Net用

就是倒排索引

种数据结构

记得以前看过

篇文章

讲在面向对象时代

数据结构

作用被减弱了

我觉得这个观点至少在Lucene.Net上必须被抛弃

回答原先

问题

什么是索引？纵观搜索引擎

发展历史

早期

搜索引擎都是基于关键字和目录

而现在已经转变成全文搜索

若要问什么是索引

那就是你有

本书

你看到了第 8页是写

个故事

你用

张纸把故事名称记录下来

那就是索引

书

是

页数

书

编号等等都可以算是索引

Lucene.Net用

就是倒排索引

那什么是倒排索引？那就是对

段文本就行分析

按分析结果

把分析得到

关键字建立索引

比如“我在用Lucene.Net

”

用StandardAnalyzer分词器索引后

就会存储“我”

“在”

“用”

“Lucene”

“.”

“Net”

“

”这些词

也就是说

索引是以词为单位存储

同时记录下了这些词出现在了哪个文档中

以及出现

位置和频率

很像在数据库里做冗余不是吗？这些需要计算

数据都已经记录下来

直接读取就可以看了

从理论上说

在定义使用M种语言

情况下

出现词

数量总是有限

从这里也可以看出分词是如此重要

分词让N个字连成了

个整体

用这个整体中

任何

个字是查不到这个整体

除非以牺牲速度为代价

以前说google水土不服

就是

google在中文分词上不如baidu

但是这个差距在缩小

　　而另外

个问题

为什么要索引

也就不难解答了

至于如何索引

这又是

个很长

故事了

　　1、逻辑存储结构

　　词在倒排索引中是最小

单位

在Lucene.Net中衡量单位是Term

由N个Term构成了Filed

而又有N个Filed组成了Document

N个Document又会组成

个Segment

N个Segment会被写到Lucene.Net

文件系统

文件系统留到后面再讲

Lucene.Net自己实现了自己

文件系统

而这个系统

最小单位由3个文件组成

可以放到

个目录下

也可以放到内存中

总

来说Lucene.Net

文件系统可以理解为

个个

文件

在Windows下就是

个目录

里面包含了 3个文件

但是从Lucene.Net

逻辑上来说

这就是

个文件

然后文件里

文本分词N个章节

那就是Segment

每个段落又会有N个段落(Document)

段落里

每句话就是Filed

而Term就是每个字

和我们处理习惯很像不是吗？而其中最重要

就是Term

其他都是为它排版用

　　而这个索引相对于分词

也可以用另外

个类来衡量

那就是——Token

是不是很熟悉？Term和Token

文本是

样

只是记录

有关这个文本

属性不

样

　　前面写到了两次写入索引

操作

代码大同小异

都是先建立

个分词器

然后把分词器交给IndexWriter

接着创建N个Document

往Docuemnt里填充Field

再把Document交给IndexWriter操作

就完成了整个索引过程

有关Segment

处理被黑箱子掉了

而Term

处理也仅仅能从分词器看到个大概

专注于互联网--专注于架构

首页 »编程综合 » lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引(一) »正文

lucene更新索引:Lucene.Net 2.3.1开发介绍 3、索引(一)

相关文章

读者评论

发表评论

热门标签

精华推荐

最新标签

Dig排行

阅读排行

最新文章