论文部分内容阅读
随着计算机的大量普及,各行各业的信息化进程也不断加快,各种信息化系统不断涌现。数据库作为应用系统的数据来源,随着这些信息系统的长期使用,数据库中的各种业务数据不断积累,如何从这大量的数据中快速找到需要的信息推动了我们对数据库全文检索的研究。针对上述需求,本文在信息系统中设计实现了数据库全文检索框架,在比较两种全文索引实现的优缺点后,基于开源搜索引擎lucene来创建索引和搜索索引,完成对数据库的全文检索。并用增量索引的方式对索引库进行维护。Lucene提供的对索引的搜索是针对关键词的精准搜索。但是由于生活中人们对同一事物的描述千差万别,所以这样的搜索就会导致结果不够全面。这需要检索系统自动识别用户的意图,能够全面合理的检索到用户希望看到的结果,这就对中文同义词的识别技术提出了更严格的要求。鉴于上述问题,本文深入研究了同义词识别的相关算法,利用数据库中已有的大量数据改进同义词识别的算法应用于大数据中提取相关词,借此构造应用于本系统的相关词词库。在此相关词词库的基础上,在数据库全文检索框架中加入对相关词的识别,并针对在加入相关词后的检索结果排序问题对lucene自带的排序算法做了改进,把相关词和关键词对结果的影响的重要度区分开来。实验结果表明,这种方法扩展了搜索结果,提高了检索系统的查全率。目前国内对中文同义词识别方面的研究才刚刚开始,在搜索引擎中的应用也不能尽如人意。本文以高校信息管理系统的应用为背景,以学科相关词的识别为目的,参考同义词识别方面的相关算法思想,结合lucene构建了一个支持相关词识别的数据库全文检索模型,改进同义词识别方法应用于相关词词库的构造中,从学科门类中基于概念树的语义相似度算法计算概念问的相似度,根据相似度的大小来确定相关词,另一方面,从现有的论文数据中基于统计的相关思想提取相关词。通过相关词词库的构造,把相关词的识别应用于全文检索中。在基于向量空间模型的基础上,把关键词对结果的影响大小用相关度的概念来描述,设计了合理的结果排序方法。