论文部分内容阅读
随着信息化程度的加深,几乎所有的纸质文档都将转换成电子版进行保存,以便进行保存、携带、检索和查阅。目前基于全文数据库的检索系统需要数据库作为底层支撑,这不论是在操作还是经济上都是普通用户难以接受的。已有的面向磁盘文件的全文检索系统在文档类型的多样化和检索结果的优化方面都存在一定的缺陷。在面向文档的全文检索系统中,首先分析了系统背景和目的,给出了功能和性能方面的需求,采取浏览器/服务器体系结构,并将系统划分为用户界面、索引管理、文档检索和结果展示四个模块。然后,对基于词频和逆文本频率的相似度评分算法进行了详尽的分析,指出这个算法在文档的相似度得分上存在的缺陷,并依据这些缺点从“全词匹配”和“词项相邻度”这两个角度对算法进行了优化。接着,详实地阐明系统中索引管理、文档检索和结果展示的实现流程。在索引管理模块中分数据库中表的管理和磁盘上文件索引的管理两个方面的实现来陈述;文档检索模块中,在详细介绍了文档检索过程的同时,给出了改进后的相似度排序算法的具体的实现。最后,对系统中能够解析的文档类型、文件索引管理功能和文档检索功能及改进后的相似度评分算法的性能设计了实验,进行了测试。实验结果表明,面向文档的全文检索系统在功能上可以满足用户对多类型文档的检索需求,且改进后的相似度排序算法在用户满意度方面也有一定的作用。