基于Lucene的二次全文检索系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：haludahuaidan

【摘要】

：

随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工

【作者】

：

吴代文

【机构】

：

西安电子科技大学

【出处】

：

西安电子科技大学

【发表日期】

：

2009年期

【关键词】

：

全文检索二次索引二次检索 Lucene

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工具：PDFBox API、POI,并对Lucene的核心索引模块加以修改,使系统在原来Lucene API只支持索引html, txt文件的基础上加入对doc, xls和pdf等的索引,实现了对多格式文档的全文检索要求。为了实现更精确的检索关键词定位,本文设计并实现了一种新的二次索引算法。该二次索引带有关键词的页码、坐标及其上下文等信息,利用该二次索引可将检索关键词定位到书籍的具体页,并在页面标示出关键字的具体位置。使对PDF文档的二次检索达到了类似Google Book的图书检索效果。试验结果表明,系统的一次检索和二次检索都达到了较高查全率和查准率,两次检索的响应时间都在毫秒级以内。系统的各项性能指标都能满足全文检索的应用需求,有较大的应用前景和商业推广价值。

其他文献

网络教学平台中数据挖掘云系统设计与开发

当前大数据时代,各类网络教学平台中,逐步储存起各类数据,并且海量地增长着。充分整合利用这些数据,作为教育决策依据,可提高决策的客观性、科学性。教育数据挖掘云系统,则是

学位

教育数据挖掘支持向量机SVM云计算SOA

江苏省小学教师职前教育新体系构建研究

在教师专业化背景下，随着九年义务教育的普及和小学入学人口的下降，培养高学历、高素质的小学教师成为教师教育发展的重点。从上个世纪末开始，我国教师教育体系开始转型，传统封闭

学位

小学教师专业素质职前教育体系组织结构

家庭背景与高校学生学业成就关系的实证研究——以江西师范大学为例

随着社会经济的快速发展，教育事业也需要不断发展和革新以适应当今社会的需要。在目前经济发展不平衡和社会分层条件下，不同社会阶层必然会存在着资源获取和占有的不平等。社会

学位

高等学校家庭背景学业成就大学生教学质量

大学生内隐自尊补偿效应的研究

自尊是建立在个体自我评价基础上的一种自我体验，对大学生的学习及社交有着直接的影响。在已有自尊研究的基础上，本研究以139名大学生为被试，采用实验和问卷调查相结合的方法，通

学位

大学生内隐自尊补偿效应状态焦虑情绪

基于Lucene的二次全文检索系统设计与实现

其他学术论文