论文部分内容阅读
信息检索是当今计算机领域研究的热点之一,其目的是为了满足用户对信息需求,即从海量信息中查找到所需信息。但是由于用户查询与文档表示的不确定性,往往会影响文档与查询的匹配效果,导致检索效果低下。 在检索模型中,图模型的方法被用于表示文档及查询语句,Markov网络检索模型是其中的一种图模型,利用Markov网络可构造词项子空间、文档子空间,从中提取最大词项团与最大文档团,通过对文档集做初次的检索,从检索的结果中构造查询子空间,从中提取出最大查询团,可构造扩展的Markov网络检索模型。在前述的研究中,度量词项采用的是BM25的形式,其缺点是BM25权重假定了词项之间的独立性,在计算时仅考虑了词项的频率信息,忽略了词项之间的依赖关系、位置特征、语序特征等。 针对上述问题,本文将基于词重要性的词项权重的计算方法应用于多层的Markov网络查询扩展模型中,该方法首先建立了文档的词项图,然后根据词项图得到词项的共现矩阵和词项间的概率转移矩阵,最后利用马尔科夫链的计算方法得到词项的权重。将得到的词项权重运用在扩展的Markov网络模型中。在5个常用的标准测试集ADI,MED,CRAM,CISI和CRAN中进行了实验,结果表明本文提出的模型优于一般的基于词袋权重的多层Markov网络检索模型。 本文的工作在于: (1)在多层Markov网络扩展的检索模型中使用了基于词重要性的方法来度量词项的权重。模型先构造多层Markov网络模型,分别是词项子空间,文档子空间,查询子空间。将这三层Markov网络信息加入到检索模型得到扩展的Markov网络模型,且在模型中词项的权重考虑了词项之间的依赖关系即采用了基于词项重要性的方法。 (2)验证并且分析了本文提出的模型的检索效果,通过调节模型中的参数考察了其对检索效果的影响,结果表明,相比于一般的基于词袋权重的多层Markov网络检索模型,融合词重要性的多层Markov网络检索模型具有更好的检索效率。