论文部分内容阅读
近年来,由于文献信息资源数量呈现指数级增长,且每时每刻还在不断的进行更新,所以,如何准确的对文献资源获取并利用成为当前技术研究的热点。随着时代的进步,检索系统从最早的手工信息检索发展到现在的计算机信息检索,国外主要的文献检索工具分别为SCI(Science Citation Index),EI(Engineeri-ng Inde x)、ISTP(Index to Scientific&Technical Proceedings),国内的是万方、知网、中国期刊等。当前大部分检索系统通过对输入查询内容与文献进行逻辑上的匹配,不能够准确的提取出用户真正需要的文献。单纯的在文字内容而不是文字真正含义上进行索引,检索系统的查全率和效率肯定达不到用户真正的需求。因此,本文针对以上问题进行研究。关键词的查找对文献查找的准确率起着重要的作用,所以对关键词提取技术进行优化。其中由Eiber-Frank等人提出的KEA算法能基于多个特征下提取关键字,由于本算法考虑到多个因素影响到关键词的准确性,所以将各个因素作为机器学习的特征,使用朴素贝叶斯的机器学习方法来提取文档中的关键词,但此方法针对英文文献进行关键词提取,方俊、郭磊等人对此方法进行改进,使其适合中文文献的关键词提取。本文在改进后的KEA方法上进行改进,使得关键词的提取更加准确。目前关键词的提取主要分为基于词频和基于语义的两大类,基于词频的关键词提取方法虽然速度上快,但是偶然性大,受领域性文本限制,准确率不能够得到保证。基于语义的关键词提取方法能够对文献中词语进行语义分析,得到词语间的深层含义,从而提高关键词提取的准确性。本文将语义分析更多地应用于改进后的KEA算法,在此算法的特征的选取上,将原有的TF_IDF变为TF_IWF,降低同领域文献对关键词提取的影响,将First Occurrence替换为Text Rank,使得关键词的提取更加可靠。还在文献的分词处理和候选词合并上进行改进,降低候选关键词的冗余,极大提升提取结果的准确性。为验证本文算法改进后的可行性和实用性,将改进后的KEA算法应用到文献提取排序的实例中,对排序后的文本进行查看,用户所需的文本排在前列,证明本方法的实用性。同时与现有的语义分析方法在准确率、召回率和两者的调和均值上进行对比,改进后的算法因为在朴素贝叶斯方法中的特征选取上选择了语义分析方法占有的比重大,所以查询结果更加准确。