周岁纪念,Lucene 项目入驻 Apache 10 周岁纪念

从一个练手项目开始到搜索引擎行业的巨头,Lucene 项目已经在 Apache 组织整整 10 年了。2001 年 9 月 18 日,Jason Van Zyl 首次将 Doug Cutting 的 Lucene 项目引入了 Apache 基金会,在此之前,Lucene 是 SourceForge 的一个项目,于 1997 年推出。 Lucene 是 Doug Cutting 学习 Java 时... [阅读全文]

lucene检索,Lucene..NET系列之二---检索数据

搜索引擎嘛当然最重要的功能在于检索,在前一篇博文中已经介绍了什么是Lucene,然后介绍了怎么样去创建索引。及在建索引中应该注意的一些问题。然后在这一篇博文中将要介绍一下建立好索引之后如何利用Lucene要索引文件中去快速的查找到数据。其中重点就是如何去组织检索表达式。可以这样理解如果是直接跟数据库去交互那么这个"SQL语句"或者说是存储过程应该怎样去拼接呢。 在前面已经建好索引,所以在搜索的时候... [阅读全文]

lucene,Lucene.Net 2.3.1开发介绍 —— 四、搜索(一)

如果您有疑问或建议,请进入技术讨论区交流 既然是内容筛选,或者说是搜索引擎,有索引,必然要有搜索。搜索虽然与索引有关,那也只是与索引后的文件有关,和索引的程序是无关的,因此,搜索和索引一般是分开部署。简单地说,就是一个应用程序(桌面程序)来索引,一个WEB程序来实现搜索。当然,为了测试的时候简单,这里还是使用NUnit的方式运行。搜索讲完后,将会简单介绍单机搜索引擎如何部署。 ... [阅读全文]

lucene,用PHP调用Lucene包来实现全文检索

由于工作需要,需要使用PHP实现对网站内大量数量进行全文检索, 而且目前最流行的全文检索的搜索引擎库就是Lucene了, 它是Apache Jakarta的一个子项目,并且提供了简单实用的API, 用这些API,就可以对任何基本文本的数据(包括数据库)进行全文检索。 因为PHP本身就支持调用外部Java类,所以先用Java写了一个类, 这个类通过调用Lucen... [阅读全文]

lucene:利用bobo-browse 实现lucene的分组统计功能

转载出处:http://blog.csdn.net/strayly/archive/2009/08/08/4424889.aspxbobo-browse 是一用java写的lucene扩展组件,通过它可以很方便在lucene上实现分组统计功能。可以从http://code.google.com/p/bobo-browse/上下载和查看相关文档。下面介绍如何使用:第一步:设置相关配置文件 bobo-... [阅读全文]

lucene全文检索:利用Lucene.net搭建站内搜索(4)---数据检索

前面的文章,我们已经对要检索的数据创建了索引,现在要做的就是为用户提供全文搜索的功能。通过Lucene我们还可以简单而高效地对搜索结果进行访问。此文和大家简单的说说利用Lucene.net进行数据的搜索。当我们查询Lucene的一个索引时,Lucene会返回一个有序的Hits对象集合(collection)Lucene使用默认的评分方式对该集合内的对象按照其得分高低进行排序。对于一个给定的查询,... [阅读全文]

lucene:利用Lucene.net搭建站内搜索(1)---了解Lucene.net

提到Lucene,想必园子中的老鸟们都有所耳闻,已经是数年前就出现的开源技术。很多站点都是利用它搭建自己网站的站内搜索。由于最近也在做数据检索方面的东西,也学习了下Lucene.net的使用。先来看下最终的效果:看上去还算是那么回事,我将利用几篇文章,和大家学习下Lucene.net创建索引,分词,检索等方面的知识。由于初学,有什么问题还望指教。此文先来和大家了解下Lucene.net,介绍给没有... [阅读全文]

apachelucene:使用 Apache Lucene 搜索文本

介绍  Lucene 是个开源、高度可扩展搜索引擎库可以从 Apache Software Foundation 获取您可以将 Lucene 用于商业和开源应用Lucene 强大 API 主要关注文本索引和搜索它可以用于为各种应用构建搜索功能比如电子邮件客户端、邮件列表、Web 搜索、数据库搜索等等Wikipedia、TheServerSide、jGuru 和 LinkedIn 等网站WebSit... [阅读全文]

lucene:用PHP调用Lucene包来实现全文检索

而PHP就这两个思路方法实现对Lucene从而达到全文检索目   PHP思路方法如下:   先创建个我们写TxtFileIndexer类例子   $tf = Java('TestLucene.TxtFileIndexer');   然后就按正常PHP类思路方法方式进行首先创建索引:   $data_path = "F:/test/php_lucene/htdocs/data/manual"; /... [阅读全文]

lucene搜索:Lucene.Net 按类别统计搜索结果数

今天群里有个朋友问"如何按类别统计搜索结果数?是不是要循环个个类别去查询出总数啊?"  以Lucene.Net现在API只能这样做当然这样做般会带来性能问题所以更好解决方案就是改动库文件了  注意:本文内容仅适用于Lucene.Net以2.1版为例其它版本可能会有出入Java版本差别更大些  改动库先要有个思路Lucene.Net查询结果是个Hits,而它有个思路方法length可以得到总结果这个... [阅读全文]

lucene:Lucene.Net 2.3.1开发介绍 一、接触Lucene.Net

1、引用Lucene.Net类库  找到Lucene.Net源代码在“C#srcLucene.Net”目录打开Visual Studio我版本是2008而Lucene.Net默认是2005先创建个项目简单起见创建个C#控制台   Document;45    //  document.Add( Field("title", title, Field.Store.YES, F... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词(一)

Lucene.Net中分词是核心库的当然也可以将它独立出来目前Lucene.Net分词库很不完善实际应用价值不高唯能用在实际场合StandardAnalyzer类效果也不是很好内置在Lucene.Net里分词都被放在项目Analysis目录下也就是Lucene.Net.Analysis命名空间下分词类命名般都是以“Analyzer”结束比如StandardAnalyzerS... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词( 2)

1.2、分词过程  1.2.1、分词器工作过程  内置分词器效果都不好那如何办?只能自己写了!在写的前当然是要先看看内置分词器是如何实现了从1.1分析分词效果可以看出KeywordAnalyzer这个分词器最懒惰基本什么事情也没做并不是它不会做而是我们没找到使用它思路方法就像手上拿着个盒子不知道里面是什么就不知道这个是干嘛有什么用打开盒子那就是要查看源代码了!  代码 1.2.1.1  Code1... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词( 3)

1.3 分词器结构  1.3.1 分词器整体结构  从1.2节分析终于做到了管中窥豹现在在Lucene.Net项目中添加个类关系图把TokenStream和他儿孙们统统拉上去就能比较好把握他们的间关系}  就什么都没了要是两个都是true,会得什么结果呢?... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词( 4)

2.1.2可以使用内置分词  简单分词方式并不能满足需求前文说过Lucene.Net内置分词中StandardAnalyzer分词还算比较实用(见1.1.2小节)StandardAnalyzer为什么能满足我们部分需求而它又有哪些不足呢?看分词好坏还是要从效果说起简单说在中英文混合情况下StandardAnalyzer会把英文按空格拆而中文则按单字拆中文是按单字拆所以对分词准确性起到了干扰搜索结果... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词( 5)

2.1.3 2元分词  上节通过变换查询表达式满足了需求但是在实际应用中如果那样查询会出现另外个问题那样搜索是只要出现这个字不管它出现在什么位置这就产生了上小节开头讲对准确性产生了极大干扰比如如果有段这样话:“这是个英雄!他有无法用词汇形容孤单但是他并没有用言语来表达”这句话包含了“英 语 单 词”这 4个字但是却和“英语单词&rdquo... [阅读全文]

lucene分词:Lucene.Net 2.3.1开发介绍 2、分词( 6)

Lucene.Net上个版本是2.1而在2.3.1版本中才引入了Next(Token)思路方法重载而ReusableStringReader类也是在新版本中引入这样改变导致了2.3.1版本不得不修改2.1版以前所有分词器带来另外个问题是以前些现有分词器拿到这里可能就不能用了  要使用ReadToEnd还有另外个解决思路方法——修改Lucene.Net源码  在修改的前我们需... [阅读全文]

lucene搜索:Lucene.Net 2.3.1开发介绍 4、搜索(一)

既然是内容筛选或者说是搜索引擎有索引必然要有搜索搜索虽然和索引有关那也只是和索引后文件有关和索引是无关因此搜索和索引般是分开部署简单地说就是个应用(桌面)来索引个WEB来实现搜索当然为了测试时候简单这里还是使用NUnit方式运行搜索讲完后将会简单介绍单机搜索引擎如何部署  4.1 搜索和什么有关  搜索和什么有关呢?即使没有看过前面文章那么现在来随便猜猜  首先搜索定和索引有关如果无关话我们根本不... [阅读全文]

lucene搜索:Lucene.Net 2.3.1开发介绍 4、搜索( 2)

4.3 表达式  用户搜索只会输入个或几个词也可能是句话输入语句是如何变成搜索条件上篇已经略有提及  4.3.1 观察表达式  在研究表达式的前定要知道任何个Query都会对于个表达式不光可以通过Query构造表达式还可以通过拼接串构造这里说观察表达式是指用Query完成查询语句后用思路方法输出Query表达式很简单是吧呵呵  4.3.2 表达式和或非  “和或非”让我想起... [阅读全文]

lucene搜索:Lucene.Net 2.3.1开发介绍 4、搜索( 3)

Lucene有表达式就有运算符而运算符使用起来确实很方便但另外个问题来了  代码 4.3.4.1Analyzer analyzer = StandardAnalyzer;QueryParser parser = QueryParser("title", analyzer);Query query = parser.Parse(@":");Console.WriteLine("--" + que... [阅读全文]

lucenenet:Lucene.Net RangeQuery 效率确实低下

很多文章提到 Lucene.Net RangeQuery 查询效率非常低下我今天测试了下果然非常低下而且结果也不正确  测试 代码:  索引     public void Index( count)    {      IndexWriter writer = IndexWriter(INDEX_DIR, Lucene.Net.Analysis.SimpleAnalyzer, true); ... [阅读全文]

lucene:Lucene Intro

Editors note: We are rerunning this Introduction to Lucene that originally ran in July 2003 in honor of the publication of "Lucene in action" by Otis Gospodnetic and Erik Hatcher. To see an example of... [阅读全文]

lucene高亮:Lucene高亮Highlighter-demo源码

java 代码packagecom.feedsky.lucene;  importjava.io.StringReader;  importorg.apache.lucene.analysis.Analyzer;  importorg.apache.lucene.analysis.TokenStream;  importorg.apache.lucene.document.Document;  i... [阅读全文]

lucene:lucene 学习

org.apache.lucene包是纯java语言全文索引检索工具包  Lucene作者是资深全文索引/检索专家最开始发布在他本人主页上2001年10月贡献给APACHE成为APACHE基金jakarta个子项目lucene广泛用于全文索引/检索项目中目前已经有很多应用搜索功能是基于 Lucene 比如 Eclipse 帮助系统搜索功能Lucene 能够为文本类型数据建立索引所以你只要能把你要索... [阅读全文]

lucene分词:给Lucene加入性能更好的中文分词

Lucene本身StandardAnalyzer提供了中文分词接口,不过其采用为1-gram.  这种分词思路方法虽然不会损失任何索引信息,但是造成索引垃圾太多,用户得到查询结果中垃圾也是很多.  经过认真研究了LuceneAnalysis包,我写了个TjuChineseAnalyzer,效果不错.  简要介绍下:  TjuChineseAnlyzer功能强大,在中文分词方面使用JNIICTCLA... [阅读全文]

lucene使用:Lucene基本使用介绍

. 概述  随着系统信息越来越多如何样从这些信息海洋中捞起自己想要那根针就变得非常重要了全文检索是通常用于解决此类问题方案而Lucene则为实现全文检索工具任何应用都可通过嵌入它来实现全文检索   2. 环境搭建  从lucene.apache.org上下载最新版本lucene.jar将此jar作为项目build path那么在项目中就可以直接使用lucene了   3. 使用介绍说明  3.1.... [阅读全文]

lucene:lucene 全文检索介绍

信息检索过程介绍  全文检索和数据库应用最大区别在于:让最相关头100条结果满足98%以上用户需求  1构建文本库  在开发功能前个信息检索系统需要做些准备工作首先必须要构建个文本数据库这个文本数据库用来保存所有用户可能检索信息  在这些信息基础上确定索引中文本类型文本类型是被系统所认可种信息格式这种格式应当具有可识别冗余程度低特点旦文本模型确定下来后就不应当对其进行大行动  2建立索引  有了这... [阅读全文]

lucene:Lucene中的基本概念

本文定义了Lucene(版本1.3)用到索引文件格式   Jakarta Lucene是用Java写成同时有很多团体正在默默用其他语言来改写它如果这些新版本想和Jakarta Lucene兼容就需要个和具体语言无关Lucene索引文件格式本文正是试图提供个完整和语言无关Jakarta Lucene 1.3索引文件格式规格定义  随着Lucene不断发展本文也应该更新区别语言写成Lucene实现版本... [阅读全文]

lucene:全文检索lucene学习笔记( 5)

Lucene实现对查询结果排序:  Sort sort = Sort( SortField("isbn", false)); //单个字段  Sort sort = Sort( SortField{ SortField("isbn", false), SortField("pbl_dt", true)}); //多个字段  其中,SortField构造中第 2个参数能够确定是升序还是降序(t... [阅读全文]

lucene高亮:lucene高亮显示

package src;  import java.io.StringReader;import java.util.Date;  import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.SimpleAnalyzer;import org.apache.lucene.analysis.TokenStr... [阅读全文]
1 共1条 分1页