论文部分内容阅读
摘要:本文通过对基于java的全文信息检索引擎框架系统的研究,详细分析了信息检索、索引和搜索原理等核心技术。在此基础上本文还对系统的接口以及扩展性进行了介绍。以方便在目标系统中实现全文检索的功能,或者以此为基础建立起完整的全文检索引擎。
关键词:信息检索;搜索引擎;索引
中图分类号:G252.7文献标识码:A 文章编号:1001-828X(2011)12-0269-01
一、国内外现状及其分析
在过去的20年中,信息检索领域得到了不断的发展和壮大。现在,有关信息检索的研究包括建模、文献分类和归类、系统构建、用户界面、数据可视化、信息过滤和查询语言等。虽然信息检索正在不断成熟,但是WEB的设计、定义、基本的数据模型并不能满足于人们对信息检索的需求,因此基于java的全文信息检索引擎框架系统的设计与开发的研究势在必行。
二、系统设计
1.设计思想和原则
(1)充分利用现有工作基础和成果,进行改进、提升和整合,避免重复建设。(2)模块之间关系尽量做到高内聚低耦合,通过定义一系列的接口和抽象类提高系统的可扩展性。(3)代码编写规范化,配有一定的注释,保证代码的重用性、可读性,可以进行快速的二次开发。
2.接口设计
本系统外部提供了简单的建立索引和搜索的API,但是内部的机制却是非常复杂的,通过调用这些API用户可以实现为文件建立索引并进行简单搜索的功能。系统主要的建立索引的API如下所示。
(1)FileIndexer:索引操作的入口。该类的Index(File)方法递归遍历文件系统目录中的并同时调用相应的解析器索引其中所有的文件。(2)Properties:该类将文件的扩展名映射到能够解析以这些扩展名为后缀的文件的DocumentHandler实现类上。(3)Analyzer:系统的文本分析器。本系统运用了其子类IK_CAnalyzer进行文本解析。
3.索引结构设计
本系统中最基础的概念是索引(index)、文档(document)、域(field)和项(term),索引包含了一个文档的序列。
(1)文档是一些域的序列。(2)域是一些项的序列。(3)项就是一个字串。
域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。域的文本可能被分解许多项目而被索引,或者被用作一个项目进行索引。
FileIndexer类的Index(File file)方法递归遍历文件系统目录并同时调用相应的解析器索引其中所有的文件。
4.部分程序设计代码
本框架系统并不关心数据的来源,格式,甚至文件使用什么自然语言都没有关系,只要可以把它转换成文本格式。目前系统只能索引和搜索MSWord、PDF、纯文本文件、HTML格式的文件,随着框架的进一步丰富,将会有更多格式的文件可以被本系统索引。具体的建立索引和搜索的过程如下所示。
public static void main(String[] args)throws Exception{
if(args.length!=3)
{System.err.println
("USAGE:java" FileIndexer.class.getName()
"-propertiesFile" "-fileToBeIndexed" " -indexFileSaved");
System.exit(0);
}
Properties prop = new Properties();
prop.load(new
FileInputStream(args[0]));
fileIndexer.indexBuilder.setMaxFieldLength(2048);
long start = System.currentTimeMillis();
fileIndexer.index(file);
fileIndexer.close();
long end = System.currentTimeMillis();
System.out.println(end-start);
}
上述建立索引和搜索過程应用的是FileIndexer框架,这个框架存在一个很明显的缺陷:它基于文件扩展名是正确的前提之上,并且要求所有的文件都必须带有扩展名。
本文件的文件扩展名总是.txt,而不会是其他的扩张名;有假设MS Word文档文件扩展名一定为.doc等等。本系统包含了能处理如下类型输入文件的几个解析器:
(1)HTML、HTM;(2)PDF;(3)MS Word;(4)纯文本文件.txt。
所以如果遇到了现有的框架不能处理的文件类型,而你又需要对此类型的文件进行索引从而使之可以被搜索时,这时该去扩展这个框架。为了更准确地进行框架的扩展操作,请遵循以下的几个步骤:
(1)编写一个用于解析目标文件类型的解析器,并实现DocumentHandler接口。(2)在handler.properties文件中添加你的解析器类,将此类映射到对应的文件扩展名上。(3)用上例的所示的方法运行FileIndexer程序。
三、系统测试
软件测试是一项非常重要的工作。它在软件的整个生存期中占据重要的位置,对软件的运行具有极其重要的意义。
(1)测试用例一:
索引文件:Lucene:基于Java的全文检索引擎简介.htm。
文件大小:52KB。
提取索引项(Term)个数:401。
所用时间:1094milliseconds。
(2)测试用例二:
索引文件:Lucene:my_search.txt。
文件大小:5KB。
提取索引项(Term)个数:252。
所用时间:853milliseconds。
四、总结
由于时间仓促,在这次程序设计的过程中,本软件还有不完善的地方,这有待笔者以后继续完善,恳请各位同行提出批评改进意见。
参考文献:
[1]谭浩强.C程序设计(第二版)[M].清华大学出版社,1999:298-308.
[2]汪晓平,俞俊,李功.精通java网络编程[M].清华大学出版社,2005:15-93.
[3]马少平,朱小燕.人工智能[M].清华大学出版社,2006:77-122.
关键词:信息检索;搜索引擎;索引
中图分类号:G252.7文献标识码:A 文章编号:1001-828X(2011)12-0269-01
一、国内外现状及其分析
在过去的20年中,信息检索领域得到了不断的发展和壮大。现在,有关信息检索的研究包括建模、文献分类和归类、系统构建、用户界面、数据可视化、信息过滤和查询语言等。虽然信息检索正在不断成熟,但是WEB的设计、定义、基本的数据模型并不能满足于人们对信息检索的需求,因此基于java的全文信息检索引擎框架系统的设计与开发的研究势在必行。
二、系统设计
1.设计思想和原则
(1)充分利用现有工作基础和成果,进行改进、提升和整合,避免重复建设。(2)模块之间关系尽量做到高内聚低耦合,通过定义一系列的接口和抽象类提高系统的可扩展性。(3)代码编写规范化,配有一定的注释,保证代码的重用性、可读性,可以进行快速的二次开发。
2.接口设计
本系统外部提供了简单的建立索引和搜索的API,但是内部的机制却是非常复杂的,通过调用这些API用户可以实现为文件建立索引并进行简单搜索的功能。系统主要的建立索引的API如下所示。
(1)FileIndexer:索引操作的入口。该类的Index(File)方法递归遍历文件系统目录中的并同时调用相应的解析器索引其中所有的文件。(2)Properties:该类将文件的扩展名映射到能够解析以这些扩展名为后缀的文件的DocumentHandler实现类上。(3)Analyzer:系统的文本分析器。本系统运用了其子类IK_CAnalyzer进行文本解析。
3.索引结构设计
本系统中最基础的概念是索引(index)、文档(document)、域(field)和项(term),索引包含了一个文档的序列。
(1)文档是一些域的序列。(2)域是一些项的序列。(3)项就是一个字串。
域的文本可能以逐字的非倒排的方式存储在索引中。而倒排过的域称为被索引过了。域也可能同时被存储和被索引。域的文本可能被分解许多项目而被索引,或者被用作一个项目进行索引。
FileIndexer类的Index(File file)方法递归遍历文件系统目录并同时调用相应的解析器索引其中所有的文件。
4.部分程序设计代码
本框架系统并不关心数据的来源,格式,甚至文件使用什么自然语言都没有关系,只要可以把它转换成文本格式。目前系统只能索引和搜索MSWord、PDF、纯文本文件、HTML格式的文件,随着框架的进一步丰富,将会有更多格式的文件可以被本系统索引。具体的建立索引和搜索的过程如下所示。
public static void main(String[] args)throws Exception{
if(args.length!=3)
{System.err.println
("USAGE:java" FileIndexer.class.getName()
"-propertiesFile" "-fileToBeIndexed" " -indexFileSaved");
System.exit(0);
}
Properties prop = new Properties();
prop.load(new
FileInputStream(args[0]));
fileIndexer.indexBuilder.setMaxFieldLength(2048);
long start = System.currentTimeMillis();
fileIndexer.index(file);
fileIndexer.close();
long end = System.currentTimeMillis();
System.out.println(end-start);
}
上述建立索引和搜索過程应用的是FileIndexer框架,这个框架存在一个很明显的缺陷:它基于文件扩展名是正确的前提之上,并且要求所有的文件都必须带有扩展名。
本文件的文件扩展名总是.txt,而不会是其他的扩张名;有假设MS Word文档文件扩展名一定为.doc等等。本系统包含了能处理如下类型输入文件的几个解析器:
(1)HTML、HTM;(2)PDF;(3)MS Word;(4)纯文本文件.txt。
所以如果遇到了现有的框架不能处理的文件类型,而你又需要对此类型的文件进行索引从而使之可以被搜索时,这时该去扩展这个框架。为了更准确地进行框架的扩展操作,请遵循以下的几个步骤:
(1)编写一个用于解析目标文件类型的解析器,并实现DocumentHandler接口。(2)在handler.properties文件中添加你的解析器类,将此类映射到对应的文件扩展名上。(3)用上例的所示的方法运行FileIndexer程序。
三、系统测试
软件测试是一项非常重要的工作。它在软件的整个生存期中占据重要的位置,对软件的运行具有极其重要的意义。
(1)测试用例一:
索引文件:Lucene:基于Java的全文检索引擎简介.htm。
文件大小:52KB。
提取索引项(Term)个数:401。
所用时间:1094milliseconds。
(2)测试用例二:
索引文件:Lucene:my_search.txt。
文件大小:5KB。
提取索引项(Term)个数:252。
所用时间:853milliseconds。
四、总结
由于时间仓促,在这次程序设计的过程中,本软件还有不完善的地方,这有待笔者以后继续完善,恳请各位同行提出批评改进意见。
参考文献:
[1]谭浩强.C程序设计(第二版)[M].清华大学出版社,1999:298-308.
[2]汪晓平,俞俊,李功.精通java网络编程[M].清华大学出版社,2005:15-93.
[3]马少平,朱小燕.人工智能[M].清华大学出版社,2006:77-122.