论文部分内容阅读
随着科技的发展和经济的腾飞,图书馆、新闻出版、企业等单位电子数据激增,可供人们选择的信息迅速膨胀。全文检索技术作为信息处理领域的重要技术为人们准确地获取信息提供了技术支持,目前该技术己成为研究的热点之一。在军队的信息化建设过程中,同样产生了大量的文献资料。为了有效地获取并利用这些已有信息,以往开发的系统将文献资料存储到Oracle数据库中,并利用其提供的全文检索技术Oracle Text来创建索引和进行检索。利用Oracle数据库检索技术虽然在一定程度上实现了文献资料的检索,但这种方法也有其自身的不足:索引与数据库是紧耦合的,索引创建过程中占用数据库的大量资源,这势必会影响到数据库的正常操作;当文献资料存储在多种数据库中时,不能进行跨库查询;Oracle Text索引技术中提供的中文分词力度不够,这就影响到了检索的精度。因此我们在已有技术的基础上,研究开发了军用文献检索系统。军用文献检索系统仍然使用Oracle数据库来存储文献资料,不过我们不再使用Oracle内部的索引机制,而是设计开发了索引服务模块和查询服务模块来索引和检索。其中,索引服务模块将索引信息存储在文件系统中,从而实现了索引和数据库的松耦合,为提高效率,该模块使用了倒排索引和增量索引的机制。查询服务模块扩展了基本的查询操作,提供了跨库查询的功能,同时该模块提供了算法来计算查询结果的相关度,并按照相关度来对查询结果排序。为了对文献资料创建索引,本文设计实现了文本转换框架和中文分词服务模块来进行对其进行预处理。文本转换框架的主要功能是获取文献资料中的文本信息,该框架为各种转换算法设计了通用接口,实现了各种算法的即插即用。为了提高中文分词的准确度,在中文分词服务模块的设计中本文采用了层叠隐马模型来进行词法分析,识别未登录词。同时系统中设计了数据采集模块来保证索引与数据库文献资料信息的同步,该模块通过主动数据库机制来按需地采集数据库中文献资料的更新信息。另外,系统中还设计了管理服务模块来对文献资料和用户信息进行统一管理。