论文部分内容阅读
在信息技术日新月异的今天,网络信息量也在快速增长,每天通过互联网产生的信息量是难以估计的,要想从这样繁多的信息中找出满意的结果,就必须要借助于搜索引擎,搜索技术的提高是优化搜索引擎性能的关键。那么如何提升搜索技术,使搜索引擎能够快速而准确地找到人们想要的知识,是信息检索领域面临的挑战。本文首先介绍了信息检索领域的研究现状和相关知识,然后进一步引出本文研究重点。本文从标签筛选和查询扩展两方面入手,来提升检索效果。一方面,对文档语义信息的挖掘是文本检索中一个很重要的方法,充分地挖掘文本语义信息对检索效果的提升有很大的帮助。Tag-LDA模型是在LDA模型的基础上改进的一种主题模型,它在LDA模型的“文档-主题”层之间加了一个标签层,通过标签层,能较好地发掘文档的语义信息。然而Tag-LDA的标签层在筛选标签的过程中更多考虑的是词语的词频信息,根据词频来选择文本特征,抽取标签,没有考虑标签对文档的类别区分能力,进而导致筛选的标签不能很好地代表文档;另一方面,现有的查询扩展方法大都是基于人工构建的知识库,但是人工构建的知识库忽略了词语语义信息的动态变化情况,使得这种变化不能在扩展检索中体现。基于以上提出的两个缺点,本文在第三章和第四章分别提出了两个解决的方法。本文第三章提出了一种基于标签筛选的文档排序方法。该方法首先在互信息的基础上引入特征项在文档类别间的分布信息,通过特征项分布的方差来描述特征项的分布均匀程度,然后将特征项的位置信息也考虑进来,最后用引入了特征项分布和位置信息的互信息改进方法对文档集中的文档进行标签选择,筛选出更能代表文档的标签。通过基于互信息改进的Tag-LDA来获得词对文档的语义信息表达,用于文档排序,从而提升检索效果。本文第四章还提出了一种基于动态词语贡献度的文档排序方法。该方法针对现有的查询扩展方法的不足之处,提出了几点改进。首先提出了动态地计算和更新语义知识库中词语语义信息的方法,然后将这种语义信息融入到查询词扩展和词义消歧的过程中,将扩展检索提升到支持动态语义分析的检索上,从而提高检索结果的准确率和查全率。