军用文献检索系统的设计与实现

被引量 : 0次 | 上传用户:yuanshidemeng36
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,可供人们选择的信息迅速膨胀。全文检索技术作为信息处理领域的重要技术为人们准确地获取信息提供了技术支持,目前该技术己成为研究的热点之一。在军队的信息化建设过程中,同样产生了大量的文献资料。为了有效地获取并利用这些已有信息,以往开发的系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,索引创建过程中占用数据库的大量资源,这势必会影响到数据库的正常操作;当文献资料存储在多种数据库中时,不能进行跨库查询;Oracle Text索引技术中提供的中文分词力度不够,这就影响到了检索的精度。因此我们在已有技术的基础上,研究开发了军用文献检索系统。军用文献检索系统仍然使用Oracle数据库来存储文献资料,不过我们不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。其中,索引服务模块将索引信息存储在文件系统中,从而实现了索引和数据库的松耦合,为提高效率,该模块使用了倒排索引和增量索引的机制。查询服务模块扩展了基本的查询操作,提供了跨库查询的功能,同时该模块提供了算法来计算查询结果的相关度,并按照相关度来对查询结果排序。为了对文献资料创建索引,本文设计实现了文本转换框架和中文分词服务模块来进行对其进行预处理。文本转换框架的主要功能是获取文献资料中的文本信息,该框架为各种转换算法设计了通用接口,实现了各种算法的即插即用。为了提高中文分词的准确度,在中文分词服务模块的设计中本文采用了层叠隐马模型来进行词法分析,识别未登录词。同时系统中设计了数据采集模块来保证索引与数据库文献资料信息的同步,该模块通过主动数据库机制来按需地采集数据库中文献资料的更新信息。另外,系统中还设计了管理服务模块来对文献资料和用户信息进行统一管理。
其他文献
研究了青岛潮间带地区的4种海藻:叉枝藻(Gymnogongrus flabelliformis Harvey,高潮带)、孔石莼(Ulva pertusa kjellm,中潮带)、缘管浒苔(Enteromorpha linza(L.)J.Agar-dh,中
简要地综述了轮胎接触问题分析的发展过程及所使用的一些方法,着重介绍了三维有限元法在轮胎接触问题中的应用,同时也概括了弹性力学理论及实验测试在轮胎接触问题中的应用。本
<正> 创造性思维是适应性思维或称重新概念化。其绝大部分不是外显行为,而是内隐的认知。我们日常大部分认知和行为是自动化的。它们满足着我们的日常需要。而满足我们需要的
本文采用分层分类和决策树分类方法,对黄河三角洲1986、1996、2009年3个时期Land-sat-TM数据进行了处理,提取了黄河三角洲湿地信息,分析了三角洲湿地20年间的动态变化。结果
以全年空调通风季节耦合运行设计思想为基础,提出过渡季节时间节点的划分和通风温度不保证率的概念,深入分析了某电影院各观众厅过渡季节通风的节能潜力,得到通风节能量与过
在2010年全国"两会"上,"收入分配"再度被空前关注,温总理提到,我国必须改革收入分配制度,以便让全体13亿国民享受到国家改革开放所带来的成果。要实现这个目的,必须研究地方
通过对建筑遮阳的重要性、我国建筑遮阳行业发展进程的综述,以及对我国建筑遮阳标准体系的研究,结合苏州地区市场现状和人群对建筑遮阳认识度的调查,探讨现阶段建筑遮阳事业
摘要:[目的]对胶质原纤维酸性蛋白(GFAP)进行基因克隆,构建原核表达质粒并加以鉴定。[方法]从人脑胶质瘤组织提取mRNA,采用RT-PCR的方法扩增GFAP序列并表达,然后与载体pGEX-4