专注于互联网--专注于架构

最新标签
网站地图
文章索引
Rss订阅
转载出处:http://blog.csdn.net/strayly/archive/2009/08/08/4424889.aspxbobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。可以从http://code.google.com/p/bobo-browse/上下载和查看相关文档。下面介绍如何使用:第一步:设置相关配置文件 bobo-browse 使用了spring,这里主要配置bobo.spring和field.xml两个文件。可以从他的源码例子中找到这两个文件,参考它做相应的修改。bobo.spring view [阅读全文] [PDF]
前面的文章,我们已经对要检索的数据创建了索引,现在要做的就是为用户提供全文搜索的功能。通过Lucene我们还可以简单而高效地对搜索结果进行访问。此文和大家简单的说说利用Lucene.net进行数据的搜索。当我们查询Lucene的一个索引时,Lucene会返回一个有序的Hits对象集合(collection)Lucene使用默认的评分方式对该集合内的对象按照其得分高低进行排序。对于一个给定的查询,Lucene为每个文档计算一个评分(即一个表示相关性的数值)。Hits本身不是实际的匹配文档集,只是指向这些匹配文档的引用(reference)。Lucene.net中处理检索的核心API:类用 [阅读全文] [PDF]
提到Lucene,想必园子中的老鸟们都有所耳闻,已经是数年前就出现的开源技术。很多站点都是利用它搭建自己网站的站内搜索。由于最近也在做数据检索方面的东西,也学习了下Lucene.net的使用。先来看下最终的效果:看上去还算是那么回事,我将利用几篇文章,和大家学习下Lucene.net创建索引,分词,检索等方面的知识。由于初学,有什么问题还望指教。此文先来和大家了解下Lucene.net,介绍给没有接触过的新手。Lucene:一个开源的使用Java语言编写的全文搜索引擎开发包。Lucene.net是使用在.NET平台下的搜索引擎开发工具,利用Lucene.net我们可以比较容易的搭建自己的 [阅读全文] [PDF]
  而PHP就这两个思路方法实现对Lucene从而达到全文检索目   PHP思路方法如下:   先创建个我们写TxtFileIndexer类例子   $tf = Java('TestLucene.TxtFileIndexer');   然后就按正常PHP类思路方法方式进行首先创建索引:   $data_path = "F:/test/php_lucene/htdocs/data/manual"; //定义被索引内容目录   $index_path = "F:/test/php_lucene/htdocs/data/search"; //定义生成索引文件存放目录   $ [阅读全文] [PDF]
  1、引用Lucene.Net类库  找到Lucene.Net源代码在“C#srcLucene.Net”目录打开Visual Studio我版本是2008而Lucene.Net默认是2005先创建个项目简单起见创建个C#控制台   Document;45    //  document.Add( Field("title", title, Field.Store.YES, Field.Index.TOKENIZED));46    //  document.Add( Field("content", content, Field.S [阅读全文] [PDF]
  Editors note: We are rerunning this Introduction to Lucene that originally ran in July 2003 in honor of the publication of "Lucene in action" by Otis Gospodnetic and Erik Hatcher. To see an example of Lucene in action, take a look at Eriks www.lucenebook.com site.   In order to m [阅读全文] [PDF]
  org.apache.lucene包是纯java语言全文索引检索工具包  Lucene作者是资深全文索引/检索专家最开始发布在他本人主页上2001年10月贡献给APACHE成为APACHE基金jakarta个子项目lucene广泛用于全文索引/检索项目中目前已经有很多应用搜索功能是基于 Lucene 比如 Eclipse 帮助系统搜索功能Lucene 能够为文本类型数据建立索引所以你只要能把你要索引数据格式转化文本Lucene 就能对你文档进行索引和搜索比如你要对些 HTML 文档PDF 文档进行索引话你就首先需要把 HTML 文档和 PDF 文档转化成 [阅读全文] [PDF]
  . 概述  随着系统信息越来越多如何样从这些信息海洋中捞起自己想要那根针就变得非常重要了全文检索是通常用于解决此类问题方案而Lucene则为实现全文检索工具任何应用都可通过嵌入它来实现全文检索   2. 环境搭建  从lucene.apache.org上下载最新版本lucene.jar将此jar作为项目build path那么在项目中就可以直接使用lucene了   3. 使用介绍说明  3.1.    基本概念  这里介绍主要为在使用中经常碰到些概念以大家都比较熟悉数据库来进行类比讲解使用Lucene进行全文检索过程有点类似数据库这个过程table-- [阅读全文] [PDF]
  信息检索过程介绍  全文检索和数据库应用最大区别在于:让最相关头100条结果满足98%以上用户需求  1构建文本库  在开发功能前个信息检索系统需要做些准备工作首先必须要构建个文本数据库这个文本数据库用来保存所有用户可能检索信息  在这些信息基础上确定索引中文本类型文本类型是被系统所认可种信息格式这种格式应当具有可识别冗余程度低特点旦文本模型确定下来后就不应当对其进行大行动  2建立索引  有了这种文本模型后就应该根据数据库内文本建立索引索引可以大大提高信息检索速度目前有许多索引建立方式采用哪种方式取决于信息检索系统规模大型信息检索系统(百度google [阅读全文] [PDF]
  本文定义了Lucene(版本1.3)用到索引文件格式   Jakarta Lucene是用Java写成同时有很多团体正在默默用其他语言来改写它如果这些新版本想和Jakarta Lucene兼容就需要个和具体语言无关Lucene索引文件格式本文正是试图提供个完整和语言无关Jakarta Lucene 1.3索引文件格式规格定义  随着Lucene不断发展本文也应该更新区别语言写成Lucene实现版本应当尽力遵守文件格式也必须产生本文新版本  本文同时提供兼容性批注描述文件格式上和前版本区别地方  定义  Lucene中最基础概念是索引(index)文档(d [阅读全文] [PDF]
  Lucene实现对查询结果排序:  Sort sort = Sort( SortField("isbn", false)); //单个字段  Sort sort = Sort( SortField{ SortField("isbn", false), SortField("pbl_dt", true)}); //多个字段  其中,SortField构造中第 2个参数能够确定是升序还是降序(true:降序; false:升序)  提醒:索引中tokenized字段是不能被排序否则会抛异常  代码如下:view plaincopy to clipboa [阅读全文] [PDF]
package src;  import java.io.StringReader;import java.util.Date;  import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.analysis.TokenStream;import org.apache.lucene.analysis.cjk.CJKAnalyzer;import org.apache.lucene.ana [阅读全文] [PDF]
  6.Locking机制  lucence  内部使用文件来locking默认locking文件放在java.io.tmpdir,可以通过-Dorg.apache.lucene.lockDir=xxx指定新dir有write.lock commit.lock两个文件lock文件用来防止并行操作index如果并行操作 lucene会抛出异常可以通过设置-DdisableLuceneLocks=true来禁止locking这样做般来说很危险除非你有操作系统或者物理级别只读保证比如把index文件刻盘到CDROM上  十、  2.0中新增特性  1.  新增类: [阅读全文] [PDF]
  5.Lucene 检索结果排序  Lucene  排序主要是对org.apache.lucene.search.Sort使用Sort可以直接根据字段Field生成也可以根据标准SortField生成但是作为Sort字段必须符合以下条件:唯值以及Indexed可以对Integers, Floats, Strings 3种类型排序  对整数型ID检索结果排序只要进行以下简单操作:  Sort sort = Sort("id");  Hits hits = searcher.search(query, sort);  用户还可以根据自己定义更加复杂排序详细请 [阅读全文] [PDF]
  4.org.apache.lucene.document.Field  即上文所说“字段”它是Document片段section  Field  构造:  Field(String name, String , boolean store, boolean index, boolean token)    Indexed  :如果字段是Indexed表示这个字段是可检索  Stored  :如果字段是Stored表示这个字段值可以从检索结果中得到  Tokenized  :如果个字段是Tokenized表示它是有经过Analyze [阅读全文] [PDF]
  、环境  需要导入lucene.jar包(在lucene.apache.org下载)   2、基本概念  1.Lucene工作流程:  (1) 使用IndexWriter在指定目录建立索引文件  (2) 将需要检索数据转换位DocumentFiled对象然后将Document用IndexWriter添加倒索引文件中  (3) 处理索引信息关闭IndexWriter流  (4) 创建搜索Query  (5) 给IndexSearcher  2.Lucene字段类型  Lucene有 4种区别字段类型:KeywordUnIndexedUnStored和Tex [阅读全文] [PDF]
  这个东西在2006年初,我就开始在项目中使用.我对它也有了些了解. 但主要开发还是小兵们在做. 所以仅仅了解了些皮毛. 下面我将以知识点形式, 列出来. 以笔记形式连载. 也方便大家起学习. 每个点, 我都会写个知识点.  1, 2005年时候, 听说了lucene. 是个开源搜索引擎开发包. 而不是个搜索引擎,请切记.  2, 如果开始学习它, 就需要至少知道,它所包含包. 目前lucene已经到了2.2版本. 当然你需要时刻关注他最新版本. 目前包: lucene-core-2.2.0.jar . 下载可以到apache网站WebSite上下载. 这 [阅读全文] [PDF]
  1, 有时对于个Document来说有些Field会被频繁地操作而另些Field则不会这时可以将频繁操作Field和其他Field分开存放而在搜索时同时检索这两部分Field而提取出个完整Document 这要求两个索引包含Document数量必须相同  在创建索引时候可以同时创建多个IndexWriter将个Document根据需要拆分成多个包含部分FieldDocument并将这些Document分别添加到区别索引  而在搜索时则必须借助ParallelReader类来整合Directory dir1=FSDirectory.getDirectory [阅读全文] [PDF]
  1, 几种spanquerySpanTermQuery:检索效果完全同TermQuery但内部会记录些位置信息供SpanQuery其它API使用是其它属于SpanQueryQuery基础  SpanFirstQuery:查找方式为从Field内容起始位置开始在个固定宽度内查找所指定词条  SpanNearQuery:功能类似PharaseQuerySpanNearQuery查找所匹配不定是短语还有可能是另个SpanQuery查询结果作为整体考虑进行嵌套查询  SpanOrQuery:把所有SpanQuery查询结果综合起来作为检索结果  SpanNotQ [阅读全文] [PDF]
  这是很久以前做lucene 时整理总结现在已经不用去研究那些代码但还是分享出来给大家以帮助谢谢  1. 从Index开始  无论哪种搜索引擎都会需要自建个index所有搜词准确率及快速性很大程度上取决于这类问题因此在建索引文件时候我们首先要弄清楚lucene建索引接口及各类参数  Field是lucene重要组成部分其引出好些接口Filed InterfNamestoreindextokenStoreTermVectorKeywordYYYN(N)UnIndexedYYNNNTextY*(Y)(Y)NUnStoredY(N)(Y)(Y)*TextY(Y) [阅读全文] [PDF]
1 2 > 共38条 分2页