基于Lucene的二次全文检索系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:haludahuaidan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化程度的提高,信息已呈现爆炸式的增长,人们希望快速精确检索信息的需求越发强烈。本文设计并实现了一个支持多格式文档检索的全文检索系统,通过引入其它开源工具:PDFBox API、POI,并对Lucene的核心索引模块加以修改,使系统在原来Lucene API只支持索引html, txt文件的基础上加入对doc, xls和pdf等的索引,实现了对多格式文档的全文检索要求。为了实现更精确的检索关键词定位,本文设计并实现了一种新的二次索引算法。该二次索引带有关键词的页码、坐标及其上下文等信息,利用该二次索引可将检索关键词定位到书籍的具体页,并在页面标示出关键字的具体位置。使对PDF文档的二次检索达到了类似Google Book的图书检索效果。试验结果表明,系统的一次检索和二次检索都达到了较高查全率和查准率,两次检索的响应时间都在毫秒级以内。系统的各项性能指标都能满足全文检索的应用需求,有较大的应用前景和商业推广价值。
其他文献
当前大数据时代,各类网络教学平台中,逐步储存起各类数据,并且海量地增长着。充分整合利用这些数据,作为教育决策依据,可提高决策的客观性、科学性。教育数据挖掘云系统,则是
在教师专业化背景下,随着九年义务教育的普及和小学入学人口的下降,培养高学历、高素质的小学教师成为教师教育发展的重点。从上个世纪末开始,我国教师教育体系开始转型,传统封闭
随着社会经济的快速发展,教育事业也需要不断发展和革新以适应当今社会的需要。在目前经济发展不平衡和社会分层条件下,不同社会阶层必然会存在着资源获取和占有的不平等。社会
自尊是建立在个体自我评价基础上的一种自我体验,对大学生的学习及社交有着直接的影响。在已有自尊研究的基础上,本研究以139名大学生为被试,采用实验和问卷调查相结合的方法,通